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O’ Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研 究 和 会 议 等 方式 传播 创新 知识 。 自 1978 年 开始 ，O Reilly— f Ap 3] 75 
发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋 通过 放大 那些 “细微 的 信号 ”来 刺激 
社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活路 的 参与 者 ，O ”Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 


O 〇 ”Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 
以 至 于 开源 软件 运动 以 此 命名 ;创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 
纽带 。O ” Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 脆 远 上 电 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 为 技术 人 
士 获取 信息 的 选择 ，O ” Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 者 面授 课 
信息 是 激发 创新 的 力量 。 


程 ， 每 一 项 O”Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 


业界 评论 


“O? Reilly Radar ZA wi pee, ” 


Wired 


“O”Reilly 凭 借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 


Business 2.0 


"O' Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。 


— —CRN 


“一 本 O”Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


— —]tish Times 


“Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 
遇 到 岔路 口 ， 走 小 路 (岔路 ) 。 ”回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ,而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。 


Linux Journal 


作者 介绍 


Matthew Ki 全 是 一 名 数据 架构 师 、 软 件 工 程 师 ， 也 是 一 位 西雅图 的 企业 家 。 多 年 来 ， 他 长 期 致力 于 以 自己 的 激情 和 背景 来 构 
建 更 好 的 软件 ， 终 于 取得 了 用 数据 来 解决 问题 的 能 力 。 


现在 ， 他 己 经 协助 了 很 多 大 公司 成 功 完成 了 各 种 数据 项 目 ， 例 如 从 推荐 钻石 的 搜索 引擎 到 营销 自动 化 软件 。 他 热衷 于 培训 工 


程 师 团队 尼 动 他 们 的 大 型 数据 项 目的 方法 。 


封面 介绍 


Ad 3p 4) Er IQ CIAA) ， 也 被 称 为 almiqui。 沟 次 移 是 一 种 小 型 哺乳 类 动物 ， 只 存在 于 古巴 东部 的 Oriente 
省 。 它 们 在 外 观 上 同 第 见 的 舶 请 科 动 物 一 样 : 长 长 的 异 子 、 小 眼睛 、 无 毛 的 尾巴 。 


Ed Up d 


是 多 种 多 样 的 ， 包 括 屁 求 、 真 菌 和 水 果 ， 还 会 使 用 有 毒 的 唾液 捕食 其 他 小 动物 。 雄 性 和 雌性 只 有 在 交配 时 才 生 
活 在 一 起 ， 雄 性 通常 不 负责 抚养 幼 嘎 。 沟 此 舶 是 夜行 性 动物 ， 生 活 在 地 下 的 洞穴 之 中 。 


十 巴 沟 此 舶 总 数 选 今 仍 然 是 未 知 数 ， 它 们 曾经 一 度 被 认为 已 经 灭绝 ， 为 很 少 有 人 在 野外 看 到 它们 。 目 前 古巴 沟 齿 鹃 已 被 列 
为 濒危 保护 物种 ， 从 猫 裔 的 捕食 (西班牙 殖民 期 引入 的 ) 到 近期 森林 栖息 地 的 表 失 都 导致 古巴 沟 齿 鹃 种 群 数量 的 萎缩 。 


O 〇 ”Reilly 封 面 的 许多 动物 都 已 濒临 灭绝 ， 但 是 它们 对 世界 来 说 都 很 重要 。 如 果 你 想 要 了 解 如 何 帮 助 它们 ， 请 访 


|"] animals.oreilly.com. 


本 书 封 面 图 片 来 自 Lydekkef s Royal Natural History » 


第 1 草 ” 可 能 近似 正确 的 软件 


如 果 你 曾 乘 飞机 飞行 ， 那 你 已 经 体验 了 世界 上 最 安全 的 旅行 万 式 之 一 。 死 于 飞机 事故 的 概率 是 2940 万 分 之 一 ， 这 意味 着 如 
果 你 想 成 为 一 名 飞行 员 ， 可 以 在 40 年 的 职业 生涯 中 ， 不 遭遇 一 次 附 机 。 考 虑 到 飞机 是 如 此 复杂 ， 那 些 概 率真 是 惊人 的 。 但 也 并 
非 忠 是 如 此 。 


2014 年 对 航空 业 来 说 是 糟糕 的 一 年 ， 有 824 起 航空 相 天 的 死亡 ， 其 中 包括 失 联 的 马 航 飞机 。 而 在 1929 年 ， 有 257 起 航空 伤 
亡 。 我 们 的 航空 业 看 起 来 变 关 了 ， 但 是 你 要 意识 到 仅 企 美国 每 年 束 有 超过 1000 万 次 航班 ， 而 在 1929 年 则 少 得 多 ， 大 约 5 万 到 10 
万 次 航班 。 这 意味 着 ， 从 1929 年 到 2014 年 ， 飞 机 失事 遇难 的 概率 从 0.25% 降 到 了 0.00824%。 


搭 乘 飞机 旅行 多 年 来 变化 很 多 ， 对 于 软件 开 友 同样 如 此 。 我 们 知道 在 1929 年 的 时 候 ， 软 件 开 友 尚 不 存在 ， 在 过 去 的 85 年 
中 ， 我 们 有 很 多 成 功 的 软件 项 目 ， 也 有 很 多 失败 的 软件 项 目 。 


最 近 的 例子 如 healthcare.gov 这 个 软件 项 目的 推出 ， 这 是 个 财政 灾难 ， 因 为 它 耗资 约 6 亿 3400 万 美元 。 更 糟糕 的 是 那些 有 着 
重大 缺陷 的 软件 项 目 。2013 年 由 于 软件 故障 而 闭 市 的 纳 斯 达 克 ， 被 宰 款 1000 万 美元 。2014 年 友 现 的 Heartbleed bug 感 染 ， 让 
许多 使 用 SSL 的 网 站 容易 受到 攻击 。 后 来 CloudFlare 撤 销 了 10 余 万 SSL 证 书 ， 据 说 花费 蜗 达 数 百 万 美元 。 


软件 和 飞机 有 个 共同 点 : 它们 都 很 复杂 ， 而 且 一 旦 出 了 故障 ， 都 是 公共 性 的 和 灾难 性 的 。 飞 机 已 经 能 确保 安全 飞行 ， 减 少 航 
空 事故 概率 超过 96%。 遗 憾 的 是 ， 在 软件 行业 并 非 如 此 ， 软 件 变 得 更 加 复杂 。 灾 难 性 的 缺陷 时 有 友 生 ， 耗 费 数 十 亿美 元 。 为 什么 
飞机 已 经 变 得 如 此 安全 而 软件 却 有 如 此 多 的 缺陷 ? 


本 书 计划 


本 书 将 涵 兰 很 多 与 机 器 学 习 相 天 的 领域 ， 学 到 最 后 你 应 该 更 好 地 掌握 如 何 编写 机 器 学 习 代 码 ， 以 及 如 何 将 代码 部 署 到 生产 环 
境 并 大 规模 运行 。 机 器 学 习 是 一 个 迷人 的 领域 ,但 如 果 没有 纪律 ， 不 去 遵照 清单 和 指南 进行 处 理 ， 许 多 机 器 学 习 的 项 目 是 注定 要 
失败 的 。 


在 本 书 中 ， 我 们 将 结合 本 章 的 基本 原则 ， 讨 论 SOLID 原 则 ， 使 用 各 种 手段 测试 我 们 的 代码 ， 并 将 重 构 作 为 一 种 方法 ， 持 续 学 
习 来 提高 代码 的 性 能 。 


每 一 章 将 会 描述 所 使 用 的 Python 包 ， 还 会 描述 一 个 通用 的 测试 计划 。 虽 然 机 器 学 习 代码 在 一 对 一 的 情况 下 是 无 法 测试 的 ， 
但 最 终 我 们 可 以 通过 编写 测试 来 帮助 我 们 深入 了 解 问题 。 


什么 是 机 器 学 习 


机 器 学 习 是 理论 上 的 精确 的 计算 机 科学 和 实际 的 噪声 数据 之 间 的 交集 。 本 质 上 ， 它 使 用 与 人 类 相同 的 方式 来 理解 数据 的 意 
义 。 机 器 学 习 是 一 种 人 工 智 能 ， 它 利用 算法 或 逻辑 从 数据 中 抽取 模型 。 机 器 学 习 可 以 解决 否 干 问题 ， 如 表 2-1 所 示 ， 在 随后 的 章 
节 中 亦 有 详细 描述 。 


表 2-1: 机 器 学 习 可 以 解决 的 问题 


把 数据 拟 合成 函数 或 者 函数 逼近 “有 监督 学 习 


在 无 反馈 的 情况 下 给 数据 分 类 无 监督 学 习 
取得 最 大 化 的 预期 利益 强化 学 习 


你 买 过 房子 吗 ” 如 果 你 和 世界 上 很 多 人 一 样 ， 拥 有 属于 目 己 的 家 是 令 人 兴 香 的 ， 但 是 寻找 和 购买 房子 的 过 程 可 能 会 压力 重 
重 。 无 论 我 们 处 于 经 济 繁 采 期 还 是 经 济 衰 退 期 ， 每 个 人 都 想 性 价 比 最 高 的 房子 。 


但 是 你 怎么 AY 
本 概念 相 天 的 问题 : EAA., 
"A M "E 


自 先 ,我们 将 讨论 如 何 估 计 房 价 。 然 后 我 们 将 村 论 如 何 将 房子 划分 为 各 个 类 别 ,， 例 如 “ 买 
个 通用 算法 ，K 最 近邻 ， 以 及 如 何 使 用 它 解 决 这 样 的 问题 。 我 们 要 将 问题 分 解 成 几 个 部 分 : 


AMA 


我 们 将 谈论 一 
及 什么 是 一 个 真正 的 邻居 ( 即 ， 什 么 是 事物 的 最 优 的 K 值 ) 。 


去 买房 子 呢 ? 你 怎么 评价 一 栋 房 子 呢 ? 像 Zillow 这 样 的 公司 如 何 得 出 他 们 的 Zestimates? 本 章 主要 回答 与 这 个 基 


"o. WX, 
什么 使 得 距离 较 近 ， 以 


如 何 确定 是 舍 想 购买 一 栋 房 子 


更 适合 租赁 ， 你 很 可 能 融 企 试图 隐 陈 地 回答 这 个 问题 。 房 


c E3 
BEA 


要 买 一 栋 房 子 ， 或 判断 


这 个 问题 长 期 困扰 着 许多 人 。 如 果 你 
屋 估价 是 一 个 环 手 的 问题 ， 而 且 众 所 周知 它 容 易 出 现 计 算 偏差 。 例 如 Zillow 的 网 站 上 说 他 们 著名 的 Zestimate 是 有 缺陷 的 
(http://bit.ly/Zestimate-whatis) 。 他 们 襄 ， 根 据 你 看 的 地 段 ， 房 价 可 能 有 一 个 地 域 化 的 偏差 量 。 
是 否 购买 一 栋 房 子 ， 取 决 


AE r3 


对 房子 来 说 ， 位 置 是 真正 的 天 键 。 西 雅 图 的 需求 曲线 和 旧金山 不 同 ， 如 果 你 了 解 房 地 产 你 束 明 日 ! 


于 你 需要 在 未 来 若干 年 里 为 它 按 揭 付 款 的 价格 。 但 是 这 个 价格 怎么 计算 出 来 呢 ? 


子 的 价格 究竟 几何 


第 言 道 : 东西 的 价格 要 看 人 们 愿意 为 它 付 多 少 钱 。 
Ms sn 的 事 。 即 使 我 们 能 够 想 出 一 个 具有 许多 内 在 变量 的 模型 ， 这 种 模型 能 发 挥 巨 大 作用 ,但 它 也 不 能 改 
测 的 。 你 当然 可 以 使 用 这 个 模型 来 给 房子 估价 ， 


能 预 


变 这 样 一 个 事实 : 买房 子 是 很 主观 的 ， 有 时 还 会 有 价格 战 。 这 些 几 乎 是 不 可 

但 仍然 会 产生 错误 ， 需 要 多 年 的 经 验 来 纠 错 。 

得 多 贵 都 有 可 能 。 一 栋 房 屋 的 价格 是 多 少 ， 这 个 答 单 的 ， 但 很 难 预测 。 由 于 供应 量 受 限 ， 或 因为 
尔 只 是 因为 很 喜欢 一 栋 房 子 ， 就 会 为 它 多 付费 。 


一 栋 房 子 卖 得 
每 栋 房 屋 都 是 独一无二 的 ， 房 屋 售 价 很 不 稳定 。 有 时 你 
买 家 愿意 文 付 的 价钱 。 这 是 一 个 函数 ， 与 房屋 本 身 的 一 些 属性 有 天 。 我 们 可 以 写 出 一 


个 答案 的 核心 是 很 简 


但 是 ， 让 我 们 假设 ， 这 栋 房 子 的 价格 
个 不 错 的 估计 房屋 价格 的 公式 : 
“位置 ! ”我 们 将 使 


公式 3-1: 房屋 价格 
MIAR: 


房屋 价格 =f (ZA, DR, ME, BF, 
这 个 模型 出 现在 回归 (我 们 将 在 第 5 草 讨论 ) 或 其 他 通 近 算法 中 ， 但 它 缺 失 了 房地产 的 主 


用 愉 忆 回归 来 克服 这 个 问题 。 


KIESA E 


我 们 都 知道 邻 域 是 什么 意思 。 无 论 你 住 在 树林 里 还 是 一 排 标 色 的 石头 中 间 ， 你 都 住 在 某 些 邻 域 中 。 如 果 没有 更 好 的 定义 ， 邻 
域 可 以 看 作 一 些 房子 的 群集 (我 们 将 在 后 面 讨论 群集 ) 。 


数 。 


维度 灾难 


任何 使 用 距离 的 事物 ， 都 有 一 个 严重 的 问题 ， 束 是 维度 灾难 。 对 越 高 维度 的 空间 进行 建 模 ， 距 离 近 似 束 变 得 越 不 准确 。 在 实 
践 中 必须 要 总 识 到 ， 控 握 数 据 集 的 特征 对 于 创建 弹性 模型 是 至 关 重 要 的 。 我 们 将 在 第 10 草 讨论 特征 工程 ， 现 在 也 需要 认识 到 这 
个 问题 。 图 3-8 表 示 了 一 个 可 视 化 的 认识 维度 灾难 的 方式 。 


如 图 3-8 所 示 ， 当 我 们 将 随机 点 放 在 单位 球体 上 并 测量 它 与 原 各 (0, 0, 0) 之 间 的 距离 ， 我 们 友 现 这 个 距离 总 是 1。 但 是 如 
果 我 们 将 它 投影 到 二 维 空间 上 ， 距 离 将 小 于 或 等 于 1。 这 个 原理 在 扩展 维度 的 时 候 也 成 立 。 例 如 ， 如 果 我 们 将 这 个 例子 从 三 维 扩 
展 到 四 维 ， 这 个 距离 将 大 于 或 等 于 1。 不 能 保持 相对 于 一 点 的 距离 不 变 ， 会 影响 所 有 基于 距离 的 模型 ， 因 为 所 有 的 数据 点 变 得 混 
ALERTA. 


AEK 


在 建 模 时 选择 适当 的 房子 数量 是 一 个 困难 的 问题 一 一 容易 验证 ， 但 很 难 提前 计算 。 在 这 一 点 上 ， 我 们 知道 如 何 将 事物 分 
组 ,但 只 是 不 知道 把 多 少 个 事物 放 入 邻 域 。 有 几 种 方法 可 以 用 来 确定 最 优 的 K 值 ， 但 每 种 万 法 都 有 其 优 缺 后: 


- 猜测 开 


` 使 用 启发 式 选择 K 


` 使 用 算法 优化 


猜测 K 


青 测 是 一 个 不 错 的 解决 方案 。 很 多 时 候 ， 当 我 们 试图 解决 一 个 问题 时 ， 我 们 已 具备 一 些 相 天 领域 的 知识 。 无 论 我 们 是 不 是 专 
家 ， 我 们 对 这 个 问题 的 了 解 程度 ， 已 经 足够 用 于 确定 一 个 邻 域 。 例 如 我 的 房子 附近 的 邻居 ， 大 约 包 括 12 栋 房子 。 如 果 我 想 扩 展 
一 下 ， 可 以 设置 我 的 K 值 为 30， 以 获得 更 平坦 的 近似 。 
司 友 式 选择 K 

有 三 种 启 友 式 方法 可 以 帮助 你 确定 KNN 算 法 的 最 佳 K 值 : 

1. 使 用 coprime 类 和 K 组 合 

2. 选 择 大 于 或 等 于 类 数 加 1 的 K 

3. 选 择 足 够 低 的 K 以 避免 噪声 

使 用 coprime 类 和 K 组 合 


挑选 数目 互 质 的 类 和 K 值 可 以 保证 较 少 产生 平局 。 互 质 的 数值 乙 间 除了 1 以 外 没有 共同 的 公约 数 。 例 如 ，4 和 9 是 互 质 的， 而 3 
和 9 不 是 。 假 设 有 两 个 类 ， 好 类 和 坏 类 。 如 果 我 们 选择 偶数 6 作为 K 值 ， 那 么 可 能 最 终 会 产生 平局 。 图 3-9 形 象 地 说 明了 这 个 问 
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@ Point in question 


(9 Good (3) 


Bad (3) 


图 3-9: K=6 时 ， 两 个 类 产生 平局 


如 果 你 选择 了 5 作为 K 值 ( 见 图 3-10) ， 融 不 会 产生 平局 。 


@ Point in question 


© Good (3) 


Bad (2) 


图 3-10: 区 =5 时 ， 两 个 类 不 会 平局 


选择 大 于 或 等 于 类 数 加 1 的 K 


假设 现在 有 三 个 类 分 别 叫 合法 类 、 混 乱 类 和 中 立 类 。 一 个 好 的 局 友 陈 是 选择 大 或 等 于 3 的 K 值 ， 因 为 K 值 小 于 3 的 话 ， 将 意味 
着 不 是 每 个 类 都 能 够 参与 计算 。 图 3-11 说 明了 K=2 时 的 情况 。 


@ Point in question 
Lawful (1) 

C3 Chaotic (1) 

C) Neutral (0) 


图 3-11: K=2 时 ， 不 可 能 所 有 三 个 类 都 能 参与 计算 


注 晶 ， 只 有 两 个 类 有 机 会 被 使 用 。 这 融 是 为 什么 我 们 需要 使 用 至 少 为 3 的 K 值 。 但 是 我 们 在 第 一 个 局 友 陈 中 友 现 ， 平 局 不 是 
一 件 好 事 。 所 以 ， 真 正 合 适 的 选择 不 是 K=3， 而 是 应 该 令 K=4 (如 图 3-12 所 示 ) 。 


Q Point in question 
Lawful (2) 

£3 Chaotic (1) 

C) Neutral (1) 


图 3-12: 开 的 值 大 于 类 的 数量 时 ， 每 个 类 都 有 机 会 参与 计算 
选择 足够 低 的 K 值 以 避免 噪声 


如 果 K 一 直 增 加 ， 最 终 接近 整个 数据 集 的 大 小 。 如 果 K 值 等 于 整个 数据 集 ， 结 果 你 选择 到 的 会 是 最 常见 的 类 。 一 个 简单 的 例 
子 是 映射 商品 品牌 和 客户 的 认同 度 之 间 的 关系。 假设 你 有 100 个 订单 ， 如 表 3-2 所 示 。 


表 3-2: 品牌 和 订单 数 


Widget Inc. 30 
Bozo Group 23 
Robots and Rockets 12 
lon 5 35 
总 计 100 


如 果 我 们 设置 K=100， 被 选择 的 品牌 将 总 是 lon 5， 因 为 1on 5 是 订单 历史 的 分 布 (最 常见 的 类 ) 。 这 不 是 我 们 想 要 的 结果 ; 
相反 ， 我 们 想 要 确定 最 近 的 订单 认同 度 。 更 具体 地 癌 ， 我 们 希望 最 小 化 进入 分 类 的 噪声 。 对 这 个 问题 没有 提出 一 个 特定 的 算法 ， 
我 们 可 以 认为 K 应 该 被 设置 为 一 个 低 得 多 的 值 ， 如 K=3 或 K=11。 


选择 K 的 算法 


K 的 选择 在 某 种 程度 上 是 定性 的 、 非 科学 的 ， 这 融 是 为 什么 有 许多 算法 用 来 优化 给 定 的 训练 集中 的 K 值 。 用 来 选择 K 的 方法 有 
很 多 ， 从 遗传 算法 到 暴力 搜索 再 到 网 格 搜索 。 很 多 人 认为 应 该 让 执行 算法 的 人 根据 对 训练 集 的 领域 知识 来 确定 K 值 。 例 如 ， 如 果 
你 知道 5 就 挺 好 的 ， 你 可 以 选择 K=5。 致 力 于 最 小 化 基于 任意 K 的 误差 的 问题 的 算法 ,被 称 为 假山 算法 。 它 的 思路 是 达 代 几 个 可 
能 的 K 值 ， 直 到 你 找到 一 个 大 小 合适 的 误差 。 使 用 如 遗传 算法 或 暴力 算法 等 算法 来 找到 最 佳 的 K 值 ， 难 点 是 随 着 K 增 加 ， 分 类 的 复 
杂 性 也 增加 并 且 算 法 性 能 降低 。 换 句 话 这， 当 K 增 加 时 ， 算 法 程序 会 变 得 更 慢 。 如 果 你 对 找到 最 佳 K 的 遗传 算法 感 兴 趣 ， 可 以 阅 
读 Nigsch 等 人 友 表 于 《Journal of Chemical Information and Modeling》 的 文章 “Melting Point Prediction Using k- 
Nearest Neighbor Algorithms and Genetic Parameter Optimization” 。 我 个 人 认为 ， 重 复 两 次 到 1% 的 数据 集 大 小 就 可 以 
了 。 通 过 试验 不 同 的 K 值 ， 你 应 该 会 对 什么 有 效 、 什 么 无 效 有 清楚 的 认识 。 


结论 


虽然 KNN 是 一 个 简单 的 算法 ， 却 能 计算 出 较 好 的 结果 。 利 用 KNN 解 决 基于 距离 的 问题 会 有 很 好 的 效果 。 我 们 还 了 解 了 如 何 
用 此 算法 解决 分 类 问题 或 回归 问题 。 我 们 还 用 表示 错误 率 的 图 形 分 析 了 模型 进行 回归 的 效果 。 


接 下 来 ， 我 们 讨论 了 KNN 具 有 任何 基于 距离 的 度量 的 固有 缺点 : 维度 灾难 。 这 个 问题 是 可 以 使 用 特征 转换 或 选择 来 克服 
的 。 


忌 之 ，KNN 是 一 个 伟大 的 算法 ， 它 经 受 住 了 时 间 的 考验 。 


第 4 草 ”朴素 贝 叶 斯 分 类 


还 记得 几 年 前 电子 邮件 是 什么 样 的 吗 ? 你 可 能 还 记得 收 件 箱 里 塞 满 了 各 类 垃圾 邮件 ， 从 尼日利亚 王子 要 上 典当 钱财 到 制药 三 的 
广告 。 我 们 花 了 大 量 的 时 间 在 过 滤 垃 圾 邮件 ， 这 成 为 一 个 重要 的 问题 。 


如 今 ， 得 葵 于 Gmail 以 及 类 似 SpamAssassin 等 工具 ， 我 们 在 过 滤 垃 圾 邮件 上 和 花费 的 时 间 比 以 前 少 了 很 多 。 通 过 使 用 名 为 贝 
叶 斯 分 类 器 的 方法 ， 这 类 工具 能 够 减少 垃圾 邮件 流入 我 们 的 收 件 箱 。 本 章 将 探讨 这 个 主题 以 及 : 


| 贝 叶 斯 定理 
“ 什么 是 朴素 贝 叶 斯 分 类 器 以 及 为 何 称 之 为 “朴素 ” 
- 如 何 使 用 贝 叶 斯 分 类 器 构建 一 个 垃圾 邮件 过 滤器 


如 表 2-2 所 示 ， 朴 素 贝 叶 斯 分 类 器 是 一 种 基于 监督 与 概率 的 学 习 方 法 。 它 适用 于 给 彼此 互相 独立 的 数据 分 类 。 它 也 适合 于 解 
决 所 有 属性 的 概率 都 大 于 零 的 问题 。 


ThER BITS; 2588 


我 们 已 经 解决 了 使 用 礼品 卡 时 友 现 欺诈 订单 的 问题 ， 但 是 如 果 我 们 只 知道 他 们 使 用 了 礼品 卡 ， 或 者 促销 代码 ， 或 者 其 他 特性 
呢 ? 在 这 种 情况 下 ， 我 们 该 怎么 做 ? 


也 殊 是 说 ， 我 们 要 解决 P(A|B，C) =? 的 问题 。 为 此 ， 我 们 需要 更 多 的 信息 ， 以 及 被 称 为 链 式 ;法则 的 工具 ，。 
链 了 式 法 则 


如 果 你 回想 一 下 概率 的 类 别 ， 也 许 你 会 想到 ，A 与 B 友 生 的 概率 等 于 给 定 A 的 条 件 下 B 友 生 的 概率 乘 以 A 及 生 的 概率 。 用 数学 
语言 表达 ， 看 起 来 是 这 样 : P (ANB) =P (BJA) P (A) 。 假 设 这 些 事件 不 是 互 斥 的 。 使 用 被 称 为 联合 概率 的 概念 ， 这 个 更 小 的 
结果 融 转 变 成 了 链 了 式 法 则 。 


联合 概率 是 所 有 事件 将 同时 发 生 的 概率 。 我 们 用 mn 来 表示 。 链 式 法 则 的 一 般 情 况 是 : 
公式 4-4: 链 式 法 则 
P(A > A,, 5A.) E P(A )P(4A, | 41)P(43 | Av A5): P(A,| Aj; A5, uS pa 1) 


这 个 扩展 版 本 有 助 于 通过 在 贝 叶 斯 概率 估算 中 输入 大 量 信息 来 解决 我 们 的 问题 。 但 是 这 里 有 一 个 问题 : 这 会 迅速 演变 成 使 用 
我 们 实际 上 不 知道 的 信息 来 进行 复杂 的 计算 ， 所 以 我 们 做 了 一 个 大 胆 的 假设 和 朴素 的 行动 。 


伪 计 数 


使 用 朴素 贝 叶 斯 分 类 器 有 一 个 很 大 的 挑战 ， 那 就 是 新 的 信息 的 引入 。 例 如 ,假设 我 们 有 一 大 堆 邮 件 ， 需 要 分 类 为 垃圾 邮件 和 
正常 邮件 。 我 们 用 所 有 数据 来 建立 概率 ， 但 是 会 友 生 一 些 不 利 的 事情 : 新 的 垃圾 词汇 一 一 fuzzbolt。 在 我 们 的 数据 中 没有 看 到 过 
fuzzbolt 这 个 单词 ， 所 以 在 计算 包含 fuzzbolt 这 个 单词 的 垃圾 邮件 的 概率 时 ， 我 们 得 到 的 概率 是 0。 这 可 能 产生 归 零 效应 ， 使 得 
结果 仿 癌 于 我 们 所 已 知 的 数据 。 


因为 朴素 幢 叶 斯 分 类 器 依赖 于 把 所 有 独立 概率 相 乘 人 在 一 起 得 出 一 个 分 类 ， 如 果 其 中 任何 一 个 概率 为 零 那 么 我 们 得 到 的 概率 将 


A 


=] 
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例如 ， 电 子 邮 件 的 主题 为 “Fuzzbolt: Prince of Nigeria”。 假 设 我 们 把 of 除去 ， 我 们 有 如 表 4-2 所 示 的 数据 。 


表 4-2: 给 定 正常 邮件 或 垃圾 邮件 下 单词 的 概率 


hy X B TE 
Fuzzbolt 0 0 


prince 75% 15% 
Nigeria 85% 10% 


现在 假设 我 们 要 给 正音 邮件 和 垃圾 邮件 各 计算 一 个 分 数 。 在 这 两 种 情况 下 ， 因 为 fuzzbolt 不 仓 在 ， 分 数 最 终 会 为 零 。 如 果 这 
样 ， 因 为 出 现 了 平局 ， 我 们 会 倾向 于 更 正 营 的 情况 ， 也 残 是 正 弟 邮 件 。 这 意味 背 这 次 分 类 失败 了 ， 因 为 一 个 无 法 识别 的 词 而 导致 
了 一 些 不 正确 的 分 类 。 


有 一 个 简单 的 解决 方法 : 伪 计 数 。 当 我 们 去 计算 概率 时 ， 我 们 将 单词 的 计数 加 一 。 所 以 ， 换 句 话说 ,一 切 都 将 以 
word_count+1 结 束 。 这 有 助 于 减少 归 零 效应 。 在 我 们 欺诈 订 蛙 检测 器 的 案例 中 ， 我 们 可 以 对 每 个 计数 加 一 以 保证 它们 永远 不 会 


所 以 在 之 前 的 例子 中 ， 假 设 我 们 有 3000 个 单词 。 我 们 将 给 fuzzbolt 一 个 分 数 1/3000。 其 他 的 分 数 会 有 一 点 轻微 改变 ， 这 能 


避免 归 零 效应 问题 。 


结论 


在 本 章 中 ， 我 们 探讨 了 如 何 构 建 并 使 用 一 个 朴素 贝 叶 斯 分 类 器 。 如 你 所 了 解 到 的 ， 这 个 算法 非常 适合 可 以 声明 为 互相 独立 的 
数据 。 作 为 一 个 概率 模型 ， 它 以 计算 出 的 分 数 为 依据 ， 很 好 地 把 数据 分 类 为 不 同方 向 。 这 种 监督 学 习 方法 对 于 欺诈 检测 、 志 圾 邮 
件 过 滤 以 及 其 他 有 类 似 特性 的 问题 都 是 很 有 用 的 。 


蘑菇 的 细微 差别 | 


与 任何 机 器 学 习 问 题 一 样 ， 在 这 里 了 解 你 的 领域 是 非常 重要 的 。 领 域 的 知识 可 以 创造 或 者 打破 许多 模型 ， 庆 嬉 也 不 例外 。 这 
些 令 人 惊奇 的 真菌 很 难 分 类 ， 虽 然 它 们 外 观 相似 ， 但 食用 起 来 可 能 有 非常 不 同 的 效果 。 例 如 在 牛 肝 菌 属 中 有 褐 绒 盖 牛 肝 菌 (海湾 
牛 肝 菌 ) 、 海 胆 牛 肝 菌 (Boletus pulcherrimus) 和 坚实 牛 肝 菌 (Boletus manicus) ， 参 见 图 5-1。 


图 5-1: 褐 绒 盖 和 牛 肝 菌 和 海胆 牛 肝 菌 (资料 来 源 : 


海湾 牛 肝 菌 是 美食 ， 海 胆 牛 肝 菌 是 有 毒 的 ， 坚 实 牛 肝 菌 则 是 迷 幻 剂 。 
大 的 蘑 姑 。 


如 果 我 们 的 目标 是 及 现 像 牛 肝 血 一 样 的 蘑 姑 ， 那 么 
这 产生 了 一 些 民间 的 传统 方法 。 


nrzz-- 


FARBIS 


SNA 
分 类 


民间 传统 产生 了 一 些 启发 式 的 
. 毒 蘑菇 色泽 鲜 存 。 


昆 求 和 动物 会 避免 与 毒 蘑菇 接触 。 


E 


毒 蘑 奖 与 大 米 一 起 煮沸 会 使 大 米 变 成 红色 。 


. 牛 肝 菌 是 可 以 安全 食用 的 中 


能 会 友 现 目 己 处 于 极度 危险 之 中 。 该 怎 


算法 ， 我 们 可 以 用 它们 建立 一 个 模型 来 帮助 我 们 分 


Wikimedia) 


它们 看 起 来 非常 相似 ， 因 为 它们 都 是 有 着 相似 菌 苹 的 肥 


么 办 呢 ? 人 们 长 期 以 来 一 直 在 分 


SER: 


所 有 的 这 些 都 是 有 错误 的 。 很 不 笠 的 ， 有 人 因为 按 其 中 的 一 部 分 原则 来 选择 蘑 姑 而 导致 死亡 。 但 是 我 们 可 以 通过 将 它们 全 部 
纳入 一 个 统一 的 定理 或 民间 定理 来 提高 这 个 列表 的 准确 性 。 

比如 ， 首 先 询问 蘑 姑 是 否 鲜艳 ， 然 后 询问 昆虫 或 动物 是 否 会 远离 蘑 姑 等 。 我 们 可 以 不 断 提 出 问题 ， 直 至 找到 一 个 全 面 的 答 

我 们 可 以 将 其 从 视 况 上 表示 为 一 个 流程 图 ( 见 图 5-2) 。 


但 是 ， 这 是 一 个 构建 模型 的 松散 的 方式 ， 并 且 受 到 所 缺失 数据 的 影响 。 


事实 上 ， 我 不 会 容忍 收集 关于 
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料 ， 因 为 这 看 起 来 是 很 危险 的 。 那 我 们 又 该 
Bf 
远离 
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m 
图 D-2: K j8] 定理 的 流程 图 
息 参 阅 Ian Robert Hall (2003), Edible and Poisonous Mushrooms of the World (Timber 出 版 ) 


确定 分 割 点 很 有 用 。 我 们 展示 了 决 
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结论 
在 本 章 中 ， 我 们 学 习 了 如 何 使 用 决策 岩 对 数据 进行 分 类 。 这 对 于 进行 层次 分 类 和 革 些 属性 有 
适合 分 类 蘑 藻 的 可 食用 性 。 但 请 记 住 不 要 在 野外 使 用 这 个 方法 来 分 类 蘑 落 ! 找 一 个 真菌 学 家 。 
隐 马 尔 可 夫 模 型 


Eie 


策 树 和 随机 森林 都 非常 运 


我 们 做 很 多 事情 时 冲 单 会 依赖 直 帝 : 例如 ， 直 竞 会 告诉 我 们 ， 某 泽 词 往往 是 某 些 特定 词类 的 一 部 分 ， 或 者 襄 ， 当 一 个 用 户 访 
问 叶 个 购物 网 站 的 注册 页 面 时 ， 其 成 为 最 终 消 费 客户 的 概率 会 较 局 。 但 是 你 思考 过 如 何 围绕 这 些 直 党 来 建立 一 个 具体 的 模型 吗 ? 

隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 擅长 于 使 用 观察 结果 找 出 给 定 系 统 的 隐藏 状态 ， 以 及 做 出 这 些 状态 如 
何 工作 的 假设 。 本 章 首 先 讨 论 如 何 跟踪 用 户 状 态 ， 进 而 探讨 更 多 天 于 HMM 是 什么 的 话题 ， 并 最 终 通 过 使 用 布 妇 语料库 来 建立 一 
个 词性 标注 系统 。 该 语音 标注 系统 会 给 句子 中 的 名 词 、 代 词 打上 标签 ， 甚 至 可 以 标注 布朗 语料库 中 的 任何 语句 内 容 。 


HMM 支 持 有 监督 和 无 监督 学 习 ， 由 于 其 对 马尔 可 夫 模 型 的 依赖 也 称 为 马尔 可 夫 过 程 。 该 模型 不 需要 大 量 的 历史 数据 信息 也 
能 正常 工作 。 它 适合 用 于 为 分 类 添加 本 地 化 的 上 下 文 。 不 像 我们 之 前 所 看 到 的 依赖 于 大 量 的 历史 数据 信息 才能 确定 用 己 收 到 的 是 
否 为 垃圾 邮件 的 朴素 贝 叶 斯 模型 ，HMM 可 以 用 来 预测 随 着 时 间 而 变化 的 模型 状态 。 


使 用 马尔 可 夫 假设 化 简 


依据 朴素 贝 叶 斯 分 类 模型 ， 每 个 属性 所 出 现 的 概率 都 相互 独立 。 所 以 对 于 垃圾 邮件 的 判定 来 训 ， 我 们 假定 互 不 天 联 的 词 或 短 
iB (如 “王子 ”和 “现在 购买 ”) 在 每 封 邮 件 中 出 现 的 概率 应 该 相互 独立 。 但 是 在 我 们 依赖 用 户 行为 所 构建 的 模型 中 ， 每 个 用 户 
的 状态 转移 间 有 依赖 关系 ， 我 们 的 主要 目的 是 求解 企 上 一 状态 切换 到 下 一 状态 的 概率 。 事 实 上 ， 我 们 会 假设 上 一 状态 与 用 户 当前 
状态 存在 联系 。 


在 朴素 贝 叶 斯 分 类 中 ， 我 们 假设 事件 之 间 的 发 生 条 件 是 相互 独立 的 。 因 此 垃圾 邮件 中 每 个 词 所 出 现 的 频率 也 与 其 他 词 无关 。 


在 当前 系统 中 我 们 也 米 用 同样 的 方法 来 处 理 。 我 们 假定 某 个 特定 状态 的 出 现 概率 主要 依赖 于 之 前 的 状态 。 所 以 之 前 的 
P (Customer|S1, S5, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17247/OEBPS/Text/...，SN) 将 缩写 为 P (Customer|SN) 。 但 是 为 什 
么 我 们 可 以 做 这 样 粗略 的 简化 呢 ? 

束 像 之 前 所 定义 的 状态 机 ， 系 统 会 根据 概率 并 且 通 归 地 持续 推导 出 之 前 的 一 系列 状态 。 例 如 某 个 网 站 访问 者 当前 是 消费 客户 
的 角色 ， 我 们 可 以 推断 出 他 之 前 最 有 可 能 的 状态 是 注册 用 户 ， 在 注册 用 户 状 态 之 前 最 有 可 能 是 观望 


根据 上 述 简 化 我 们 将 得 出 一 个 令 人 兴 否 的 结论 并 引导 我 们 进入 下 一 主题 : 马尔 可 夫 链 。 
使 用 马尔 可 夫 链 代 蔡 有 限 状 仿 机 


我 们 已 经 讨论 了 单一 系统 且 仪 有 一 个 输出 结果 的 状况 。 但 是 马尔 可 夫 模 型 的 强大 在 于 你 可 以 假设 系统 的 操作 状态 会 持续 进 
行 。 我 们 能 清晰 地 指出 并 预测 系统 将 要 友 生 的 行为 而 不 是 查询 当前 进程 将 要 做 什么 ， 这 束 是 马尔 可 夫 链 。 


马尔 可 夫 链 在 系统 仿真 方面 表现 出 色 。 比 如 排队 理论 、 财 务 、 天 气 建 模 和 游戏 理论 都 大 量 使 用 了 马尔 可 夫 链 。 在 这 些 系统 上 
基于 马尔 可 夫 链 进行 预测 效果 非常 好 ， 因 为 它们 表现 行为 的 方式 都 很 简洁 。 而 有 些 模型 (例如 神经 网 络 模型 ) 在 我 们 添加 节点 后 
会 变 得 相当 复杂 ，HMM 仅 仪 依赖 少量 的 概率 起 孟 ， 因 此 在 对 此 类 系统 的 行为 建 模 时 也 非 澡 有用。 


马尔 可 夫 链 可 以 在 一 个 持续 运行 的 系统 中 基于 一 个 隐藏 的 状态 序列 来 分 析 和 查找 信息 。 但 是 ， 这 仍然 不 能 解决 我 们 的 根本 问 
题 。 我 们 需要 通过 根据 给 定 用 尸 先 前 隐藏 的 状态 和 我 们 目 己 的 观察 来 确定 他 现在 处 于 什么 状态 。 为 此 ， 我 们 需要 加 强 马 尔 可 夫 链 
对 隐藏 状态 信息 的 观测 能 力 。 


通过 维特 比 算 法 解码 


解码 的 问题 朱 述 起 来 很 容易 : 基于 给 定 的 一 系列 观测 点 ， 我 们 想 求解 最 有 可 能 的 序列 ， 基 于 该 序列 路 径 我 们 所 观测 的 结果 概 
率 最 大 。 用 数学 公式 来 描述 束 是 我 们 想 找 到 一 系列 特定 的 mn*=arg maxP (x, T) ，T 代 表 的 是 状态 向 量 ，x 代 表 的 是 可 见 观 测 
点 


ZANNO 


为 此 ， 我 们 将 使 用 维特 比 算法 。 你 可 以 把 这 想象 成 一 种 构造 最 大 生成 树 的 万 法 。 我 们 尝试 去 寻找 基于 当前 状态 的 最 大 似 然 路 
。 枉 贫 相 算法 类 似 ， 维 特 比 算法 残 是 通过 迭代 所 有 可 能 的 下 一 个 状态 概率 然后 计算 出 最 有 可 能 的 路 径 状 态 序 询 。 


EN 


维特 比 算 法 如 图 6-5 所 示 。 


图 6-5: 维特 比 算法 


根据 上 图 我 们 可 以 友 现 状态 S1 是 与 时 序 无 天 的 ， 状 态 S3 则 与 其 他 的 状态 崇 密 相 天 。 用 浅 色 显示 的 箭头 代表 的 是 衰减 的 概 


y 


我 们 将 尝试 用 这 个 算法 来 以 最 佳 的 方式 遍历 状态 组 集合 。 我 们 可 以 确定 下 一 个 将 发 生 状 态 的 输出 概率 和 从 之 前 状态 变 成 当前 


状态 的 转移 概率 。 然 后 将 这 两 者 相 乘 束 能 得 到 序列 将 要 友 生 的 概率 。 依 次 遍历 整个 序列 ， 最 终 找到 最 优 序 列 。 
学 习 问题 


学 习 问 题 可 能 是 最 简单 的 算法 实现 。 给 定 一 状态 序 询 和 对 应 的 观察 点 ， 哪 一 个 才 是 最 有 可 能 上 友 生 的 下 一 个 ”通过 算法 我 们 残 
步 找 出 下 一 步 ， 最 后 得 出 维特 比 序列 。 我 们 基于 下 一 步 的 最 大 出 现 概率 计算 出 下 一 个 状态 ， 事 实 上 此 时 并 没有 实际 输出 。 但 
是 ， 却 可 以 计算 出 最 可 能 的 输出 行为 ， 以 及 最 可 能 的 状态 ， 这 融 是 所 谓 的 下 一 个 最 佳 状态 输出 组 合 。 

如 果 这 种 方法 并 没有 解决 问题 ， 不 要 担心 ， 下 一 节 将 深入 探讨 如 何 使 用 维特 比 算法 。 


但 是 ， 我 们 并 没有 获取 到 基于 用 户 录 个 时 间 段 访问 网 页 的 简单 数据 记录 ， 因 此 也 没有 办 法 以 此 来 分 析 用 尸 的 行为 。 但 这 里 有 
一 个 类 似 问 题 ， 我 们 可 以 隐 马 尔 可 夫 模 型 来 尝试 解决 词性 标注 的 问题 。 


词性 标注 与 布 明 语 库 


以 短语 “快速 的 标 色 狐狸 ” (“the quick brown fox" ) 为 例 ， 你 会 如 何 进行 标记 ”我 们 知道 ， 英 文 单词 分 为 形容 词 和 名 
词 以 及 限定 词 等 。 因 此 ， 我 们 可 以 将 这 句 话 以 “限定 词 ， 形 容 词 ， 形 容 词 ， 名 词 ”来 进行 标记 。 因 为 我 们 的 脑海 中 有 一 个 基本 的 
语法 标准 ， 因 此 可 以 很 容易 地 标记 这 个 例子 ， 但 我 们 如 何 训练 算法 来 做 类 似 的 事情 ? 


当然 ， 由 于 此 章 是 讲述 隐 马 尔 可 夫 模 型 的 ， 所 以 我 们 将 借助 它 找到 最 佳 的 分 词 方式 。 基 于 我 们 对 它 的 了 解 ， 可 以 使 用 维特 比 
算法 来 判断 对 于 给 定 的 单词 序列 ， 什 么 才 是 最 好 的 标记 分 词 序列 。 本 节 中 ， 我 们 将 依靠 布衣 语料库 ， 这 是 第 一 个 电子 语料库 。 它 
有 超过 100 万 个 包含 注释 的 词 ， 其 中 部 分 有 音标 。 尽 省 标签 的 列表 很 长 ， 但 是 请 放心 ， 所 有 标签 都 是 正常 标签 ， 只 包含 如 形容 
词 、 名 词 和 动词 等 。 


布衣 语料库 是 以 一 种 特定 的 注释 方式 建立 的 。 对 于 每 一 个 序列 的 单词 ， 你 会 看 到 类 似 的 下 文 : 


Most/ql important/jj of/in all/abn ,/, the/at less/ql developed/vbn countries/nns 
must/md be/be persuaded/vbn to/to take/vb the/at necessary/jj steps/nns to/to allo- 
cate/vb and/cc commit/vb their/pp$ own/jj resources/nns ./. 


在 上 例 中 ，Most 标 记 成 q|， 这 是 修饰 语 (quanlifier) 的 缩写 ，Important 标 记 为 j， 即 形容 词 (adjective) ， 同 样 其 他 的 
标注 也 是 类 似 的 缩写 方式 ， 直 到 ./. 这 个 符号 意味 着 一 个 段 藻 以 句号 结束 。 


唯一 缺少 的 东西 是 开始 标记 字符 (START) 。 一 般 来 涡 ， 当 我 们 在 编写 马尔 可 夫 模 型 时 ， 我 们 希望 标记 在 T 的 位 置 和 T-1 位 
置 的 词 。 由 于 大 多 数 情 况 下 开头 的 词 前 面 没有 其 他 的 词 ， 所 以 我 们 使 用 一 个 特殊 的 名 称 START 进 行 标记 ， 表 明 从 此 处 开始 这 个 序 
列 。 这 样 我 们 残 可 以 测量 从 开始 到 限定 词 的 概率 了 。 


Sce DU 


所 有 的 样 例 代码 在 GitHub 上 都 可 以 找到 ， 网 址 为 https://github.com/thoughtfulml/examples-in- 


python/tree/master/hidden-markov-model, 
由 于 Python 经 常 更 改 ， 所 以 一 切 运 行 方式 以 README 文 件 为 准 。 
除了 Python， 对 于 运行 样 例 文件 没有 其 他 第 三 方 的 依赖 。 
编码 和 测试 设计 


为 了 达到 目的 我 们 设计 了 两 个 类 来 完成 分 词 器 ( 见 图 6-6) 。 


Pos Tugger 


训练 
维特 比 算 法 


Corpus 解 析 
parse Corpus 解 析 - 


布 明 语料库 


图 6-6: 分 词 器 的 类 图 


CorpusParser 

这 个 类 的 作用 是 用 来 解析 布衣 语料库 。 

POSTagger 

这 个 类 的 作用 是 根据 给 定 的 布 明 库 训 练 数 据 进行 新 词 的 分 词 标 记 。 


在 这 种 情况 下 ， 我 们 的 测试 用 例 将 集中 在 布 明 语料库 的 分 词类 和 标记 类 的 连接 处 并 交叉 验证 错误 率 是 否 在 可 接受 范围 乙 内 。 


HASE 
我 们 的 布 明 解析 类 : CorpusParser 
分 词 的 天 键 在 于 数据 源 。 最 重要 的 一 点 在 于 只 有 导入 包含 合适 信息 的 数据 源 分 词 器 模型 才 会 从 中 不 断 学 习 。 首 先 需 要 做 一 些 


希望 它 如 何 工作 的 假设 。 我 们 希望 存储 每 一 个 过 渡 过 程 ， 该 过 程 是 由 词语 和 标记 两 个 数组 组 合 而 成 的 ， 然 后 将 该 过 程 封 兴 在 名 为 
CorpusParser: : TagWord 的 简单 类 中 。 初 步 测 试 如 下 : 


import unittest 


class CorpusParserTest(unittest.TestCase): 
def setUp(): 
self.stream = "WMtSeveral/ap defendants/nns ./.\n" 
self.blank = "Mt Vn" 


def it parses a line(self): 
cp = CorpusParser() 
null = cp.TagWord(word = "START", tag = "START") 


several = cp.TagWord(word = "Several", tag = "ap") 
defendants = cp.TagWord(word = "defendants", tag = "nns") 
period = cp.TagWord(word = ".", tag =".") 


expectations - [ 
[null, several], 
[several, defendants], 
[defendants, period] 


] 


for (token in cp.parse(self.stream)): 
self.assertEqual(token, expectations.pop(0)) 


self.assertEqual(len(expectations), 0) 


def it doesnt allow blank lines(self): 
cp = CorpusParser() 


for(token in cp.parse(self.blank)): 
raise Exception("Should never happen") 


这 段 测试 代码 包含 两 个 用 例 ， 都 是 基于 布 明 语料库 的 ， 检 查 它 们 是 否 被 正确 解析 。 第 一 个 用 例 用 于 检查 能 否 正确 地 解析 数据 
流 并 且 打 上 相应 的 标记 。 第 二 个 用 例 是 全 面 检查 如 果 布 明 语 料 库 为 空 时 是 否 会 衫 忽略 。 


对 值 进行 初始 化 ， 并 填 入 corpusparser 类 : 


class CorpusParser: 
NULL CHARACTER = "START" 
STOP = "An" 


SPLITITER. = "^ 


class TagWord: 
def | init (self, **kwargs): 
setattr(self, 'word', kwargs['word' ]) 
setattr(self, 'tag', kwargs['tag' ]) 


def | init (self): 
self.ngram = 2 


def iter (self): 
return self 


def next(self): 
char = self.file.read(1) 


if self.stop iteration: raise StopIteration 


if not char and self.pos !- and self.word !- 


self.ngrams.pop(0) 


self.ngrams.append(TagWord(word = self.word, tag = self.tag)) 


self.stop iteration - True 
return self.ngrams 


if char == "Mt" or (self.word == "" && STOP.contains(char)): 


return None 
elif char == SPLITTER: 
self.parse word = false 
elif STOP.contains(char): 
self.ngrams.pop(0) 


self.ngrams.append(TagWord(word = self.word, tag = self.pos)) 


self.word - 
self.pos - 
self.parse word = True 


return self.ngrams 
elif self.parse word: 

self.word += char 
else: 

self.pos += char 


def parse(file): 
self.ngrams = [ 
TagWord(NULL CHARACTER, NULL CHARACTER), 
TagWord(NULL CHARACTER, NULL CHARACTER) 


] 


self.word - 
self.pos - 
self.parse word = True 
self.file - file 


return self 


如 前 所 述 ， 使 用 each_char 来 实现 一 个 解析 器 通常 是 在 Python 语言 中 最 高 效 的 解析 方式 
分 : 编写 分 词 器 。 


编写 分 词 器 


。 现 在 我 们 可 以 进入 更 有 趣 的 部 


至 此 我 们 已 经 准备 编写 分 词 器 类 了 。 为 了 完成 它 我 们 需要 留意 以 下 几 方 面 : 

1. 从 CorpusParser 中 读 取 数 据 。 

2. 仔 储 该 数据 便于 我 们 计算 词 频 标记 等 概率 。 

3. 对 标记 转移 概率 矩阵 做 同样 的 事情 。 

我 们 希望 这 个 类 能 够 告诉 我 们 一 个 单词 以 及 其 标签 序列 的 可 能 性 ， 并 通过 一 个 明文 的 句子 来 判断 出 最 佳 的 标签 序列 是 什么 。 


要 做 到 这 一 点 ， 需 要 先 解决 概率 问题 ， 然 后 计算 一 个 标签 序列 与 词 序列 组 合 后 的 概率 。 最 后 ， 我 们 将 通过 维特 比 算法 的 实现 
来 解决 该 问题 。 


让 我 们 来 讨论 一 下 依据 上 一 标签 来 估算 当前 标签 的 概率 可 能 是 多 少 。 依 据 最 大 似 然 估 计 理 论 ， 我 们 可 以 知道 该 概率 应 该 等 于 
两 个 标签 的 计数 除 以 之 前 标签 计数 。 测 试 如 下 ; 


from collections import defaultdict 
class POSTagger: 
def | init (self, data io): 
self.corpus parser - CorpusParser() 
self.data io - data io 
self.trained - False 


def train(): 
if not self.trained: 
self.tags = set(["Start"]) 
self.tag combos = defaultdict(lambda: 0, {}) 
self.tag frequencies = defaultdict(lambda: 0, {}) 
self.word tag combos = defaultdict(lambda: 0, {}) 


for(io in self.data io): 
for(line in io.readlines()): 
for(ngram in self.corpus parser.parse(line)): 
write(ngram) 
self.trained - True 


def write(ngram): 


if ngram[0].tag == 'START': 
self.tag frequencies['START'] += 1 
self.word tag combos['START/START'] += 1 


self.tags.append(ngram[-1].tag) 

self.tag frequencies[ngram[-1].tag] += 1 

self.word tag combos["/".join([ngram[-1].word, ngram[-1].tag])] += 1 
self.tag combos["/".join([ngram[0].tag, ngram[-1].tag])] += 1 


def tag probability(previous tag, current tag): 
denom = self.tag frequencies[previous tag] 


if denom -- 
0.0 
else: 
self.tag combos["/".join(previous tag, current tag)] / float(denom) 


请 记 住 ， 序 列 从 一 个 隐 合 的 START 标 签 开始 。 所 以 在 这 里 你 看 到 的 D 过 渡 到 D 的 概率 实际 上 是 2 除 以 3， 因 为 从 D 过 渡 到 D 实 
际 需 要 3 次 但 是 在 序列 中 只 显示 了 两 次 。 


默认 字典 


python 的 字典 与 Java 里 面 的 数组 、 哈 希 值 ， 或 哈 希 图 概念 类 似 。 基 本 概率 是 : 在 数据 结构 中 存储 某 种 类 型 的 键 值 对 。 默 认 字 
典 比 字典 更 进一步 。 在 大 多 数 情况 下 ， 在 Python 中 定义 了 字典 以 后 ， 如 果 你 查询 的 东西 不 在 字典 中 ， 你 会 得 到 一 个 KeyError 异 


"P o 


相反 ， 在 默认 字典 中 ， 你 可 以 设置 默认 始终 有 返回 值 而 非 异 常 。 


from collections import defaultdict 


dictionary = ['a': 'b') 
dictionary['b'] # Yields KeyError 


default dictionary = defaultdict(lambda: 0, dictionary) 
default dictionary['b'] == 0 


你 也 许 注意 到 了 当 返 回 值 为 0 时， 我 们 做 了 一 点 错误 处 理 ， 因 为 我 们 将 抛 出 一 个 除 以 0 的 错误 。 接 下 来 ,我们 需要 解决 字 标 
签 组合 的 概率 ， 下 面 的 方法 继续 之 前 的 测试 : 


import StringIO 
class TestPOSTagger(unittest.TestCase): 
def setUp(): 
self.stream = StringIO("A/B C/D C/D A/D A/B ./.") 
self.pos tagger = POSTagger([StringIO.StringIO(self.stream)]) 


self.pos tagger.train() 


def it calculates probability of word and tag(self): 
self.assertEqual(self.pos tagger.word tag probability("Z", "Z"), 0) 


# A and B happens 2 times, count of b happens twice therefore 100% 
self.assertEqual(self.pos tagger.word tag probability("A", "B"), 1) 


# A and D happens 1 time, count of D happens 3 times so 1/3 
self.assertEqual(self.pos tagger.word tag probability("A", "D"), 1.0/3.0) 


4 START and START happens 1, time, count of start happens 1 so 1 
self.assertEqual(self.pos tagger.word tag probability("START", "START"), 1) 


self.assertEqual(self.pos tagger.word tag probability(".", "."), 1) 


为 了 让 之 前 的 POSTagger 类 能 正常 工作 ， 我 们 需要 进行 下 面 的 步骤 : 


class POSTagger: 
# o init 
# train 
# write 
4 tag probability 


def word tag probability(word, tag): 
denom = self.tag frequencies[tag] 


if denom -- 
0.0 
else: 
self.word tag combos["/".join(word, tag)] / float(denom) 


现在 我 们 有 两 样 东西 了 ， 分 别 是 word tag probability (单词 标签 出 现 概率 ) 和 tag probability (标签 出 现 概 率 ) 。 有 了 这 
两 样 ， 我 们 就 可 以 回答 问题 : 给 定 一 个 词 和 标签 序列 ， 最 有 可 能 出 现 的 是 什么 ? 当前 标签 出 现 概 率 为 之 前 标签 出 现 概率 乘 以 给 定 
的 单词 标签 出 现 频率 ， 具 体 测试 代码 如 下 : 


class TestPOSTagger(unittest.TestCase): 
# setUp 
# it calculates probability of word and tag 


def it calculates probability of words and tags(self): 
Words = [C SAR . A' Cau As 5. .1 
taus 2 [ SART; "B, D,.;D,HM s] 
tagger = self.pos tagger 


tag probabilities = reduce( (lambda x, y: x * y), [ 
tagger.tag probability("B", "D"), 
tagger.tag probability("D", "D"), 
tagger.tag probability("D", "B"), 
tagger.tag probability("B", ".") 
]) 


word probabilities = reduce( (lambda x, y: x * y), [ 
tagger.word tag probability("A", "B"), 4 1 
tagger.word tag probability("C", "D'"), 
tagger.word tag probability("A", "D"), 
tagger.word tag probability("A", "B"), 4 1 


]) 
expected - word probabilities * tag probabilities 


self.assertEqual(tagger.probability of word tag(words,tags), expected) 


因此 通过 计算 单词 标签 出 现 概 率 乘 以 标 演 转换 概率 ， 我 们 可 以 很 容易 地 实现 POSTagger 类 : 


class POSTagger: 
# o init 
# train 
# write 
# tag probability 
4& word tag probability 
def probability of word tag(word sequence, tag sequence): 
if len(word sequence) !- len(tag sequence): 
raise Exception('The word and tags must be the same length! ') 


length = len(word sequence) 
probability = 1.0 


for (i in xrange(1, length)): 
probability *- ( 
tag probability(tag sequence[i - 1], tag sequence[i]) * 
word tag probability(word sequence[i], tag sequence[i]) 


) 


probability 


现在 我 们 可 以 计算 出 给 定单 词 和 标记 序列 的 出 现 概率 是 多 少 。 但 是 如 果 我 们 能 够 确定 基于 既定 的 句子 和 训练 数据 ， 最 好 的 标 
等 序列 是 什么 ， 融 更 好 了 。 为 此 我 们 需要 编写 一 个 简单 的 测试 : 


class TestPOSTagger(unittest.TestCase): 

4 setUp 

# it calculates probability of word and tag 

# it calculates probability of words and tags(self): 

def viterbi(self): 
training - "I/PRO want/V to/TO race/V ./. I/PRO like/V cats/N ./." 
sentence - 'I want to race.' 
tagger - self.pos tagger 
expected = | START, "PRO'. WV. TO, WV y x] 
self.assertEqual(pos tagger.viterbi(sentence), expected) 


因为 涉及 维特 比 算法 ， 所 以 这 个 测试 略微 有 些 复杂 。 让 我 们 一 步 一 步 来 实现 吧 。 第 一 个 需要 解决 的 问题 是 ， 我 们 的 方法 只 接 
受 字 符 串 ， 而 非 一 个 序列 令 和 脾 。 我 们 需要 用 空白 来 进行 分 割 并 且 保 留 原 先 的 停止 字符 。 为 了 做 到 这 一 点 ， 我 们 的 维特 比 算 法 如 
F: 


import re 
class POSTagger: 
# init 
# train 
# write 
# tag_probability 
# word tag probability 
# probability of word tag 


def viterbi(sentence): 
parts = re.sub(r"([NV. N21 ])", r" M", sentence) 


维特 比 算法 是 一 个 迭代 算法 ， 这 意味 着 每 一 步 都 建立 在 前 一 步 的 基础 之 上 。 所 以 我 们 需要 记 住 以 前 的 概率 并 保持 最 优 标签 。 
急 始 化 并 找 出 最 好 的 标签 的 步 又 如 下 : 


class POSTagger: 
# init _ 
# train 
# write 
# tag probability 
# word tag probability 
# probability of word tag 


def viterbi(sentence): 


# parts 
last viterbi = {} 
backpointers = ["START"] 


for (tag in self.tags): 
if tag == 'START': 
next() 
else: 
probability = tag probability('START', tag) * V 
word tag probability(parts[0], tag) 


if probability » 0: 
last viterbi[tag] = probability 


backpointers.append( 
max(v for v in last viterbi.itervalues()) or 
max(v for v in self.tag frequencies.itervalues()) 


) 


&xt]), last viterbi 只 有 一 个 选择 ， 融 是 {PRO: 1.0}。 这 是 因为 从 开始 到 其 他 任何 转移 概率 均 为 零 。 同 样 ，backpointers 将 
包括 START 和 和 PRO 标签 。 至 此 ， 我 们 已 经 建立 了 初始 化 步 又 ， 我 们 需要 做 的 就 是 进行 亿 历 : 


class POSTagger: 
# init 
# train 
# write 
# tag probability 
# word tag probability 
# probability of word tag 


def viterbi(sentence): 

# parts 

# initialization 

for(part in parts[1:]): 
viterbi = {} 
for(tag in self.tags): 

Lr tag == “START à 
next() 


if last viterbi: 
break 


best previous - max( 
for((prev tag, probability) in last viterbi.iteritems()): 
probability * | 
tag probability(prev tag, tag) * | 
word tag probability(part,tag) 


) 
best tag - best previous[0] 


probability = last viterbi[best tag] * | 
tag probability(best tag, tag) * | 
word tag probability(part, tag) 
if probability » 0: 
viterbi[tag] = probability 


last viterbi = viterbi 
backpointers «« ( 


max(v for v in last viterbi.itervalues()) or 
max(v for v in self.tag frequencies.itervalues()) 


) 


backpointers 


我 们 只 存储 相关 的 信息 ， 如 果 有 last_viterbi 为 空 的 情况 出 现 ， 我 们 将 使 用 tag_frequencies 进 行 替 换 。 这 种 情况 只 有 在 迭代 


很 多 次 后 才 会 友 生 。 这 种 存储 万 式 比 存储 所 有 的 信息 要 快 得 多 。 


好 了 ， 看 上 去 程序 应 该 可 以 正常 工作 啦 ! 但 是 真 的 如 此 吗 ? 


通过 交叉 验证 来 增强 模型 的 信心 


我 们 需要 谨 愤 地 编写 交叉 验证 测试 用 例 。 虽 然 这 是 一 个 简单 的 模型 ， 但 我 们 仍然 希望 看 到 人 至少 20% 的 准确 率 。 把 数据 集 切 成 
10 份 来 进行 交叉 验证 一 下 。 我 们 并 不 需要 知道 这 个 模型 的 准确 置信 区 间 是 什么 ， 我 们 只 需要 显示 给 用 户 错 误 率 即 可 。 当 我 运行 
测试 时 ， 销 误 率 约 为 30%。 我 们 将 讨论 如 何 改善 ， 但 起 码 开 端 不 错 ， 我 们 只 需 关 注 这 两 个 概率 即 可 。 


class CrossValidationTest(unittest.TestCase): 
def setUp(self): 
self.files = Glob('./data/brown/c***') 


FOLDS - 10 


def cross validate(self): 
for (i in xrange(0,FOLDS)): 
splits - len(self.files) / FOLDS 
self.validation indexes = range(i * splits, (i + 1) * splits) 
self.training indexes - range(0, len(self.files)) - self.validation indexes 
self.validation files - (file for idx, file in enumerate(self.files)) 
self.training files - (file for idx, file in enumerate(self.files)) 


validate(fold) 


def validate(self, fold): 
pos tagger - POSTagger.from filepaths(training files, true) 


misses = 0 
successes = 0 


for(vf in self.validation files): 
with open(vf,'rb') as f: 
for(l in f.readlines()): 
if re.match(r"\A\s+\z/", 0): 
next() 
else: 
words = [] 
parts of speech = [ START ] 
for (ppp in re.split(r"\s+")): 
z = re.split(r"'M", ppp) 
words.append(z[0]) 
parts of speech.append(z[1]) 
tag seq - pos tagger.viterbi(" ".join(words)) 
for (k,v) in zip(tag seq, parts of speech)) 


misses += sum((k !2 v) ? 1:0 
for (k,v) in zip(tag seq, parts of speech)) 
successes += sum((k == v)? 1: 0 


print "Error rate was: " + float(misses) / float(successes + misses) 


最 后 交叉 测试 的 错误 率 大 概 在 20% ~ 30%， 这 实际 上 是 不 准确 的 。 部 分 问题 在 于 布 明 语料库 的 标签 之 间 仔 人 在 差异 ， 比 如 如 果 
你 不 关心 所 有 格 代词 和 普通 代词 之 间 的 差异 ,错误 率 束 会 下 降 很 多 。 


如 何 优 化 这 个 模型 


与 之 前 所 有 例子 一 样 ， 改 进 模型 的 最 好 方法 束 是 彻 砍 了 解 它 的 工作 原理 然后 去 迭代 。 一 个 快速 的 改进 办 法 是 每 次 回溯 一 个 以 
上 的 蛙 词 。 因 此 ， 你 需要 找到 基于 之 前 两 个 标签 当前 标签 的 概率 是 多 少 (原先 是 基于 之 前 的 一 个 标签 ) 。 你 可 以 通过 修改 代码 中 
的 语料库 标注 部 分 来 实现 。 只 要 简单 地 修改 残 能 让 例子 运行 得 更 完美 ! 

虽然 模型 处 理 的 是 词性 标注 ， 但 实际 上 也 能 以 此 来 建立 一 个 用 户 状 态 模 型 ， 正 如 之 前 所 述 ， 虽 然 我 不 能 拿 此 类 数据 进行 免费 
Af (有 隐私 版 权 的 问题 ) ， 但 是 通过 观察 日 志 数 据 ， 可 以 标记 出 用 户 的 实际 状态 (观望 者 、 普 通用 户 和 消费 客户 ) 。 


更 进一步 ， 我 们 可 以 使 用 该 模型 围绕 用 户 行为 来 推 类 用 户 的 直 帝 行为 济 程 图 ， 促 使 观望 者 和 普通 用 户 转 换 为 消费 客户 。 


结论 


隐 马 尔 可 夫 模 型 是 最 有 趣 的 模型 之 一 ， 特 别 是 当 涉 及 底层 数据 只 能 从 系统 给 定 的 一 些 可 观察 数据 来 确定 时 。 例 如 ， 你 可 以 确 
定 一 个 用 己 的 真实 状态 ， 找 到 一 个 词 的 基本 标签 ,甚至 跟随 乐谱 等 。 


在 本 章 中 ， 我 们 学 习 了 如 何 将 状态 机 推广 到 马尔 可 夫 链 中 ， 然 后 用 于 模拟 系统 行为 。 我 们 还 增加 了 一 个 隐藏 的 组 件 来 鉴别 一 
个 模型 隐 合 状态 : 通过 观察 点 的 输出 来 推导 出 系统 的 基本 状态 。 我 们 学 到 了 使 用 隐 马 尔 可 夫 模 型 的 三 个 阶段 评估、 解码 和 学 
习 ) ， 并 讨论 了 如 何 解决 这 泽 相关 阶段 的 方法。 最后， 我 们 学 习 了 如 何 使 用 布 明 语料库 和 维特 比 算法 来 进行 分 词 操作 。 


Bla LAEI 


在 本 章 中 ， 我 们 将 着 手 解 决 一 个 常见 的 问题 : AEREN. JAE, AMBER ASA, ANENA 
会 。 语 言 表达 了 他 们 的 情绪 。 


这 个 问 
界 将 数据 分 割 成 多 个 部 分 ， 并 且 由 于 它 使 用 了 特征 变换 ， 并 忽略 数据 点 之 间 的 距离 ， 因 而 在 较 高 维度 上 运行 恨 好 。 我 们 还 将 讨论 


A 


之 前 提 到 过 的 弟 用 测试 万 法 ， 例 如 : 


站 题 有 无 限 多 的 解决 万 案 ， 但 是 本 章 将 重点 介绍 一 个 非常 有 效 的 解决 万 案 : 支持 向量 机 (SVM) 。 该 算法 使 用 决策 边 


“ 交 又 验证 


混淆 矩阵 
“召回 全 与 准确 全 

同时 ， 我 们 还 将 研究 一 种 改进 模型 的 新 方式 一 一 特征 转换 。 另 外 ， 我 们 将 讨论 在 情绪 分 析 问 题 中 上 友 生 以 下 现象 的 可 能 性 : 
EE: 

- 不 稳定 的 数据 

: 校正 级 联 


- 配置 债务 


客户 满意 度 作为 语言 的 消 数 


我 们 的 网 上 商店 有 两 类 客户 : 满意 的 和 不 满意 的 。 满 意 的 客户 总 是 会 再 次 到 网 站 并 从 固定 的 公司 购买 东西 ， 而 不 满意 的 客户 
只 是 浏览 商品 而 不 买 ， 或 者 不 管 是 什么 公司 的 东西 随便 买 ， 或 者 把 钱 花 在 别 的 地 方 。 我 们 的 目标 是 确定 客户 的 满意 度 是 否 与 我 们 
的 最 终 效益 有 关联 ， 并 全 方位 地 监测 他 们 的 满意 度 。 

但 这 里 有 一 个 问题 。 我 们 如 何 用 数据 来 说 明 客户 是 否 满 意 ?不幸 的 是 ， 我 们 的 数据 库 中 没有 一 个 域 来 说 明 客 户 的 满意 程度 。 
我 们 直观 地 知道 ， 满 意 的 客户 通常 更 有 可 能 是 长 期 客户 ， 但 是 我 们 如 何 验 证 这 一 观点 呢 ? 

这 个 问题 有 两 个 层次 : 

1. 我 们 需要 型 清楚 客户 是 否 满意 ， 换 句 话 说 ， 他 们 的 情绪 是 正面 的 还 是 负面 的 。 

2. 客 户 的 整体 情绪 与 我 们 的 最 终 效益 是 否 相 关 ? 

我 们 也 假设 一 个 满意 的 客户 意味 着 更 多 的 利润 ， 但 这 个 假设 是 否 真 的 成 立 呢 ? 我 们 是 否 可 以 建立 一 个 算法 来 验证 这 类 假设 ? 

为 了 着 手 解决 这 两 个 层次 的 问题 ， 我 们 以 某 种 方式 在 客户 类 型 和 情绪 类 型 之 间 建 立 映 射 。 有 很 多 可 行 的 解决 方案 ,例如 用 群 
集 将 客户 分 成 两 组 ， 或 使 用 KNN 找 到 不 满意 或 满意 客户 的 最 近邻 居 ， 或 者 使 用 支持 向 量 机 (SVM). 


用 支持 同 量 机 进行 情绪 分 类 
想 要 映射 全 部 的 客户 情绪， 首先 得 有 数据 作为 输入 。 为 了 达到 目的 ,我 们 配备 了 一 个 支持 系统 ， 用 来 导出 由 客户 输入 的 数 


据 。 
考虑 到 有 些 客户 不 止 一 次 在 支持 系统 中 给 我 们 写 信 ， 我 们 如 何 判 断 他 们 是 否 满意 ?可 以 实现 这 个 目的 的 万 法 包括 : 


` 支持 代理 人 使 用 情绪 (正面 或 负面 ) 来 标记 每 张 票 。 
` 支持 代理 人 标记 一 部 分 票 ( 占 所 有 门票 的 百分比 为 X%) o 


- 使 用 现 有 的 标记 数据 库 (如 电影 评论 或 菜 些 学 术 数 据 集 ) o 


ZUEK 
尽管 在 本 章 中 我 们 将 使 用 一 个 学 术 数 据 集 为 例 ， 但 还 是 要 指出 ， 请 一 群 人 标记 一 部 分 票 ， 通 常 是 解决 这 个 问题 的 正确 方法 。 


在 实践 中 ， 我 们 希望 花 最 少 的 工作 量 ， 取 得 最 好 的 结果 。 也 就 是 说 ， 关 于 一 个 问题 得 到 一 些 真实 的 数据 。 在 情绪 分 析 的 例子 
中 ， 如 果 我 们 将 此 作为 公司 的 产品 ， 很 有 可 能 我 们 将 雇用 支持 代理 人 收集 一 部 分 票 (比如 所 有 票 的 30%) ， 建 立 一 个 子 集 ， 并 且 
在 每 张 票 上 标记 它 是 负面 评价 还 是 正面 评价 


这 里 的 一 个 重要 的 需要 注意 的 地 方 是 ， 人 类 在 这 样 的 问题 上 看 法 有 所 不 同 。 代 理 人 A 可 能 认为 菜 张 票 是 正面 评价 ， 而 代理 人 
了 B 可 能 认为 这 张 票 是 负面 评价 。 


因此 ， 使 用 某 种 投票 机 制 来 做 决定 是 很 重要 的 ， 无 论 是 取 平 均值 还 是 其 他 模式 。 如 果 要 给 30% 的 票 打 标记 ， 我 们 至 少 需 
个 人 标记 每 张 票 ， 之 后 可 以 取 平 均值 或 以 最 多 数 作 为 答案 。 


些 机 制 实际 上 也 可 以 用 来 做 数据 集 的 引导 程序 。 一 般 来 说 ， 每 个 数据 点 上 的 共识 越 多 ， 机 器 学 习 算 法 越 有 可 能 对 其 进行 分 


现在 我 们 需要 给 数据 进行 分 类 ， 可 以 先 确定 使 用 什么 算法 。 由 于 本 章 是 关于 SVM 的 ， 所 以 我 们 将 使 用 这 一 算法 ， 虽 然 许 多 
算法 也 可 以 正常 工作 。 但 是 ， 我 决定 在 本 章 中 使 用 SVM， 根 本 原因 是 它 具 有 以 下 属性 : 


: 它 可 以 避免 维度 灾难 ， 这 意味 着 我 们 可 以 使 用 很 多 的 维度 (特征 ) 。 
它 已 被 证 明 在 情绪 分 析 方 面 工作 效果 良好 ， 这 一 点 将 在 下 面 的 讨论 中 详细 地 进行 说 明 。| 


[1] Gaurangi Patil et al., "Sentiment Analysis Using Support Vector Machine," International Journal of Innovative Research in Computer and 


Communication Engineering 2, no. 1 (2014),http:/ /ijircece.com/upload/2014/january/16K. Sentiment.pdf. 


聚合 情绪 


现在 我 们 已 经 建立 了 一 个 模型 来 计算 文本 代表 的 情绪 ， 还 有 一 个 问题 是 当 菏 些 客户 购买 了 多 张 票 ， 如 何 将 它们 映射 到 同一 种 
情绪 。 有 几 种 方法 可 以 做 到 这 一 


E 模式 

- 平均 值 (将 在 一 1 和 1 之 间 得 到 一 个 分 数 ) 

指数 移动 平均 线 

每 种 方法 都 有 其 优点 和 缺点 ， 为 了 解释 这 种 差异 ， 让 我 们 举 个 例子 : 一 些 情绪 有 变化 的 客户 ( 见 表 7-1) 。 


表 7-1: 客户 情绪 随时 间 变 化 
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一 般 来 襄 ， 可 以 预见 有 些 客户 随 独 时 间 的 推移 可 能 会 改变 他 们 的 想法 。 例 如 ，Alice 的 情绪 由 正面 区 为 负面 ; Bob 的 情绪 企 
开始 时 是 负面 的 ， 但 是 结束 时 变 成 了 正面 ; Terry 的 看 法 多 数 时 候 是 正面 的 ， 但 有 时 候 也 会 有 负面 的 情绪 。 


这 里 涉及 一 个 有 趣 的 实现 细节 。 如 果 我 们 将 这 些 数据 映射 到 一 个 模式 或 平均 值 ， 那 么 有 些 不 重要 的 数据 会 产生 更 大 的 影响 。 
例如 我 们 将 得 到 Alice 情 绪 正 面 、Bob 情 绪 负 面 的 结果 ， 而 实际 上 现在 Alice 的 情绪 是 负面 的 ，Bob 的 情绪 是 正面 的 。 


模式 和 平均 值 都 属于 快速 实现 ， 但 是 还 有 另 一 种 称 为 指数 加 权 移 动 平均 线 (简称 EWMA) 的 方法 。 


指数 加 权 移 动 平均 线 


指数 移动 平均 线 在 金融 行业 中 大 量 使 用 ， 因 为 它 给 最 近 的 数据 加 上 比较 大 的 权重 ， 而 给 较 旧 的 数据 加 上 比较 小 的 权重 。 金 融 


JESSSRMARIR, AMI]JUSSESEREAIR L''RJSEQHS. SES PIAA, KT ARNEMAN EADE - ES EH SOS ERA, Joc B 
效 决定 给 过 往 的 数据 加 上 多 大 的 权重 。 


所 以 ， 我 们 不 再 使 用 如 下 的 简单 平均 值 公式 : 


Tat Yete 


() Ji t 
114] + 0n 


我 们 将 使 用 公式 : 


Y = a(Y t(1-a)Y, ,*(1-a)'Y 4*0 -ayY, s+.) 


t+l [ [ [ 


这 可 以 转换 成 递归 公式 : 


Y = QaQY,+(l1— a)Y, 


t+ 1l 


回 到 关于 如 何 实现 聚合 情绪 的 问题 上 ， 让 我 们 把 模式 、 平 均值 和 EWMA 一 起 做 个 比较 ( 见 表 7-2) 。 


表 7-2: 模式 、 平 均值 和 EWMA 比 较 


AF 模式 EWMA( co —0.94) 
Alice 1 0.2 -0.99997408 
Bob -1 -0.4 0.999568 
Terry 1 0.6 0.99999845 


正如 你 所 看 到 的 ，EWMA 在 映射 客户 情绪 方面 比 平 均值 和 模式 效果 更 好 。Alice 现 在 的 情绪 是 负面 的 ，Bob 现 在 的 情绪 是 正 
面 的 ，Terry 的 情绪 基本 都 是 正面 的 。 


结论 


。 也 可 以 把 它 修改 为 分 离 两 个 以 上 的 类 ， 它 不 会 像 KNN 那 样 受到 维度 灾 


SVM 算法 非 单 适合 对 可 以 分 为 两 类 的 数据 进行 分 类 
世 意 的 客户 ， 以 及 如 何 将 情绪 类 映射 到 电影 评论 数据 。 


难 的 影响 。 本 章 教 你 如 何 使 用 SVM 来 分 类 满意 和 不 满 


但 更 重要 的 是 ， 我 们 还 考虑 了 如 何 测试 直觉 : 即 满意 的 客户 是 否 为 我 们 带 来 更 多 的 利润 。 
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人 类 都 是 做 模式 匹配 的 遍 手 。 机 儿 从 母 杀 的 子 宣 出 来 之 后 ， 残 有 能 力 从 周围 的 混沌 中 分 辨 信息 ， 进 而 逐渐 学 会 如 何在 这 个 世 


界 有 效 地 做 事 。 这 当然 与 我 们 的 教养 和 环境 有 关 ， 但 起 到 最 重要 作用 的 还 是 人 类 的 大 脑 。 


大 脑 谷 有 大 约 860 亿 个 神经 元 ， 它 们 通过 突 触 网 络 彼此 交流 。 这 些 神经 元 能 够 控制 你 的 身体 机 能 ， 形 成 思想 、 记 忆 和 心理 模 


型 。 这 些 神经 元 中 的 每 一 个 都 可 以 看 作 计 算 机 网 络 的 一 部 分 ， 接 收 输入 的 信息 ， 并 把 输出 的 信息 友 送 到 其 他 神经 元 ， 所 有 这 些 通 
信和 都 以 协调 的 万 式 进 行 。 

很 久 以 前 ， 数 学 家 们 就 想到 ， 尝 试 将 人 类 大 脑 的 数学 表示 拼凑 起 来 将 是 很 有 趣 的 事情 ， 他 们 称 之 为 人 工 神 经 网 络 。 里 然 60 
年 前 人 们 融 开 始 研究 神经 网 络 ， 但 那 时 设计 的 许多 技术 在 今天 仍然 适用 ， 可 用 于 构建 模型 来 计算 问题 。 


本 章 要 深入 讨论 神经 网 络 ， 将 会 介绍 以 下 几 个 部 分 : 
- 内 值 逻辑 ， 即 如 何 构建 布尔 函数 

: 神经 网 络 是 混沌 的 布尔 函数 集合 

- 如 何 构 建 一 个 前 馈 神 经 网 络 

: 通过 梯度 下 降 测 试 神经 网 络 的 策略 


:手写 文本 语言 分 类 的 一 个 例子 


什么 是 钊 经 网 络 


独 经 网 络 在 很 多 方面 都 是 元 美的 机 器 学 习 结构 。 它 们 可 以 将 输入 数据 映射 到 某 种 昔 规 的 输出 ( 见 图 8-1) 。 


输出 


输入 


图 8-1: 神经 网 络 一 一 完美 的 黑 厘 子 


独 经 网 络 的 早 走 之 处 在 于 : 与 感知 器 (模拟 人 类 视神经 控制 系统 的 图 形 识别 机 ) 不 同 ， 它 们 可 以 用 于 模拟 复杂 的 结构 。 例 
如 ， 假 设 有 三 个 输入 和 一 个 输出 ,我 们 可 以 根据 所 拥有 的 关于 问题 的 领域 知识 ， 将 内 部 复杂 度 设 置 为 2 或 3。 


伸 经 网 络 史 


最 开始 ， 神 经 网 络 这 个 课题 想 要 人 研究 大 脑 究竟 如 何 运 作 。 人 类 大 脑 中 的 所 有 神经 元 在 一 个 网 络 中 共同 协作 ， 对 输入 和 刺激 进 
行 处 理 和 理解 。Alexander Bain 和 William James 都 提出 : 可 以 将 大 脑 看 成 一 个 能 够 处 理 大 量 信息 的 网 络 。 神 经 元 网 络 具 有 识别 
模式 及 从 以 前 的 数据 中 学 习 的 能 力 。 例 如 ， 如 果 一 个 孩子 看 到 过 8 只 狗 的 照片 ， 她 就 开始 理解 狗 是 什么 样子 的 。 


当 Warren McCulloch 和 Walter Pitts 发 明了 阅 值 逻辑 之 后 ， 这 项 研究 往 人 工 智 能 的 方向 义 志 进 了 一 步 。 阅 值 逻 辑 对 二 进 制 
信息 进行 组 合 以 确定 逻辑 真 值 。 他 们 建议 使 用 一 种 称 为 步骤 函数 的 方法 。 步 又 国 数 附 加 了 一 个 辣 值 ， 来 决定 接受 还 是 拒绝 先前 信 
息 的 总 和 。 经 过 多 年 的 研究 ， 神 经 网 络 和 阅 值 逻 辑 结合 起 来 ， 形 成 了 我 们 现在 所 说 的 人 工 神经 网 络 。 


感 和 器 


感知 器 利用 了 布尔 逻辑 的 思想 ， 并 更 进一步 ， 包 含 了 更 多 的 模糊 逻辑 。 感 向 器 通 音 需 要 基于 车 举国 值 的 达到 与 售 来 决定 妈 回 
值 。 例 如 ， 假 设 你 是 一 名 老师 ， 你 想 要 企 本 季度 未 决定 哪些 学 生 可 以 通过 ， 哪 些 学 生 不 能 通过 。 显 然 ， 你 需要 一 种 万 法 ， 把 通过 
的 学 生 和 没 通过 的 学 生 分 开 。 这 可 能 是 个 相当 主观 的 决定 ， 但 通常 会 遵循 以 下 常规 程序 : 


def threshold(x): 
if sum(weights * x) + b > 0.5: 
return 1 
else: 
return 0 


在 这 段 代 码 中 ， 变 量 x 是 在 整个 季度 收集 的 所 有 成 绩 的 向 量 ，weights 是 一 个 权重 向 量 。 例 如 ， 你 可 能 想 要 给 期 末 考 试 的 成 
绩 更 高 的 权重 。 而 此 处 的 b 只 是 因为 学 生 按 时 出 勤 而 赠送 的 分 数 。 


使 用 这 样 一 个 简单 的 公式 ， 可 以 乞 确 定 我 们 想 要 “不 通过 ”的 学 生 人 数 ， 来 般 历 所 有 权重 值 ， 从 而 获取 最 优 的 权重 。 假 设 我 
们 有 100 名 学 生 ， 只 想 让 10% 的 学 生 “ 不 通过 ”。 我 们 可 以 通过 编写 程序 来 实现 这 个 目标 。 


如 何 构建 副 馈 仲 经 网 络 


镍 经 网 络 有 许多 不 同 的 种 类 ， 但 本 章 将 重点 天 注 前 馈 网 络 和 循环 网 络 。 


独 经 网 络 之 所 以 很 特别 ， 是 因为 它们 使 用 了 一 层 隐 藏 的 加 权 阔 数 ， 这 尝 六 数 叫 作 神经 元 。 在 这 个 隐藏 层 中 ， 你 可 以 有 效 地 构 
建 一 个 使 用 了 许多 其 他 函数 的 网 络 ( 见 图 8-2) 。 如 果 没 有 隐藏 层 的 这 些 数 ， 神 经 网 络 只 是 一 组 简单 的 加 权 冰 数 喷 了 。 
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神经 网 络 可 以 用 每 层 神 经 元 的 数量 表示 。 例 如 ， 如 果 输 入 层 中 有 20 个 神经 元 ， 一 个 隐藏 层 中 有 10 个 神经 元 ， 在 输出 层 中 有 5 
个 ， 那 将 是 一 个 20-10-5 网 络 。 如 果 有 多 个 隐藏 层 ， 那 么 我 们 可 以 将 其 表示 为 20-7-7-5 (中 间 两 个 7， 代 表 两 个 具有 7 个 神经 元 的 
隐藏 层 ) 这 样 的 形式 。 


忌 之 ， 神 经 网 络 包括 以 下 几 个 部 分 : 


EL 


接 下 来 ， 逐 个 介绍 这 些 组 成 部 分 以 及 它们 的 工作 原理 。 


输入 层 


如 图 8-3 所 示 ， 输 入 层 是 神经 网 络 的 入 口 点 ， 是 模型 设置 的 输入 数据 的 地 方 。 在 这 一 层 中 没有 神经 元 ， 因 为 它 的 主要 目的 是 
作为 隐藏 层 的 导入 渠道 。 输 入 类 型 是 很 重要 的 ， 因 为 神经 网 络 只 对 两 种 类 型 可 用 : 对 称 型 和 标准 型 。 


图 8-3: 神经 网 络 的 输入 层 


当 对 神经 网 络 进行 训练 时 ， 有 两 类 数据 : 观察 和 输入 。 以 异 或 (也 称 为 XOR) 为 一 个 简单 例子 ， 它 的 真 值 表 如 表 8-1 所 示 。 


表 8-1: XOR 真 值 表 


表示 异 或 的 男 一 种 方法 是 查看 维 恩 图 ( 见 图 8-4) 。 给 定 两 组 数据 ， 阴 影 区 域 显 示 这 两 组 数据 的 XOR 区 域 。 注 意 ， 中 间 日 色 
区 域 是 空 集 。 


图 8-4: 维 因 图 中 的 XOR 有 函数 (图 片 来 源 : Wikimedia) 


在 这 个 例子 中 有 四 个 观察 值 和 两 个 输入 值 ， 它 们 可 能 是 true 或 者 false。 然 而 ， 神 经 网 络 不 能 直接 处 理 true 或 者 false 这 样 的 
数据 ， 所 以 关键 是 如 何 对 输入 数据 进行 编码 。 我 们 需要 将 它们 转换 为 标准 输入 或 者 对 称 输入 。 


标准 输入 
标准 输入 的 值 的 范围 在 0 和 1 之 间 。 在 之 前 的 XOR 示 例 中 ， 我 们 将 true 编 码 为 1，false 编 码 为 0。 这 种 输入 万 式 有 一 个 缺点 : 


如 果 输 入 的 数据 比较 稀 朴 ， 也 惑 是 差不多 都 是 0， 它 可 能 使 结果 出 现 侦 关 。 具 有 大 量 0 的 数据 集 意 味 着 它 有 使 模型 朋 澳 的 风险 。 
只 有 在 知道 输入 中 没有 稀 顺 数 据 时 ， 才 建议 使 用 标准 输入 。 


对 称 输入 


对 称 输入 则 可 以 避免 大 量 0 数据 引起 的 问题 。 这 种 输入 的 数据 值 在 - 1 和 1 之 间 。 在 表面 的 XOR 的 例子 中 ， 可 以 用 - 1 表示 
false，1 表 示 true。 这 种 输入 有 利于 防止 模型 因为 清 零 效应 而 月 演 。 除 此 之 外 ， 它 较 少 强调 输入 数据 分 布 的 中 间 位 置 。 如 果 我 们 
在 XOR 计 算 中 引入 了 一 个 不 确定 的 数据 ， 我 们 可 以 将 其 映射 为 0 并 忽略 它 。 输 入 数据 可 以 使 用 对 称 型 ， 也 可 以 使 用 标准 型 ， 但 需 
要 标记 所 使 用 的 数据 类 型 ， 因 为 我 们 需要 根据 输入 数据 的 类 型 来 计算 神经 元 的 输出 。 


没有 隐藏 层 ， 神 经 网 络 将 是 一 些 加 权 线 性 函数 的 组 合 。 


换 句 话说 ， 隐 蕊 层 给 神经 网 络 赋予 了 为 非 线 性 数据 建 模 的 能 力 ( 见 图 8-5) 。 


图 8-5: 神经 网 络 的 隐藏 层 


每 个 隐藏 层 包含 一 组 神经 元 ( 见 图 8-6) ， 这些 神经 元 的 输出 将 传递 给 输出 层 。 


图 8-6: 神经 网 络 的 神经 元 


钊 经 元 


独 经 元 是 封装 在 激励 冰 数 中 的 加 权 绪 性 组 合 。 加 权 续 性 组 合 〈 或 总 和 ) 是 将 从 前 面 所 有 神经 元 得 到 的 数据 聚合 成 一 个 输出 ， 
用 于 作为 下 一 层 的 输入 。 如 图 8-7 至 图 8-11 所 示 ， 激 励 阔 数 用 来 对 数据 作 标准 化 ， 因 此 它 也 是 对 称 型 或 标准 型 的 。 


当 神 经 网 络 一 层 一 层 输 送信 息 时 ， 它 将 前 面 一 层 的 输入 聚合 为 一 个 加 权 和 。 我 们 取 y 的 值 ， 并 基于 激励 立 数 计算 激励 后 的 
(H. 


yzwh + WX? 


图 8-7: 神经 元 是 前 一 层 输入 的 加 权 和 


激励 阔 数 


ADLER, BARBA (其 中 一 些 列 在 表 8-2 中 ) 是 在 标准 沁 围 或 对 称 学 围 之 间 规 兆 化 数据 的 方式 。 它 们 也 是 有 区 别 的 ， 并 且 
这 种 区 别 是 有 必要 的 ,根据 如 何在 训练 算法 中 决定 权重 ,我 们 需要 选用 不 同 的 激励 浮 数 。 


表 8-2: 激励 函数 


名 称 TER 对 称 的 


Sigmoid 1 2 EE 
—2 sum —2 - sum 
1+e 1+e 
Cosine Cos m 10.5 cos (sum) 
Sine sin rm 10.5 sin (sum) 
Gaussian 1 2 1 
„SUM „SUM 
Elliott 0.5- sum 10.5 sum 
1+ [sum | 1+ [sum | 


Linear sum »1?1:(sum «0:sum) sum»1?1:(sum «-1? —1 : sum) 


Threshold sum «0?0:1 sum «0? -1:1 


fs FHSAUBD ERIS ES UGRRTE-, METRI LAT EZ CE SEES SLATE RES zu. XARA, RIZ RES 98 T MEUS AG 
TARIR. ARRABA NERKI: MRAR TEX ZEEMIBUS P. RA (如 图 8-8 和 图 8-10 所 示 ) 是 一 个 
很 好 的 默认 选择 。 周 期 函数 (如 图 8-9 和 图 8-11 所 示 ) 用 于 给 具有 大 量 噪 声 的 数据 建 模 。 它 们 通常 及 用 正弦 消 数 或 余 统 遂 数 的 形 
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图 8-8: 对 称 型 倾斜 激励 函数 
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对 称 型 周期 激励 函数 


图 8-9 : 
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Weighted Sum 
图 8-10: 标准 型 倾斜 激励 函数 
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图 8-11: 标准 型 周期 激励 函数 


Sigmoid 是 与 神经 元 一 起 使 用 的 默认 函数 ， 因 为 它 有 能 力 做 平 光 决策 。Elliott 是 一 个 Sigmoidal 遂 数 ， 它 的 计算 速度 更 快 ， 
所 以 我 选择 用 这 个 负数 。 当 需要 映射 一 些 与 随机 得 看 过 程 相 关联 的 数据 时 ， 可 以 使 用 余 纱 函数 和 正弦 国 数 。 除 此 乙 外 ， 在 大 多 数 
情况 下 ， 这 些 三 角 浮 数 对 解决 问题 作用 不 大 。 神 经 元 是 所 有 工作 完成 的 地 方 。 它 们 是 激励 溺 数 提供 的 前 一 级 输入 的 加 权 和 ， 并 将 
其 值 的 范围 调整 为 0 至 1 (或 - 1 至 1) 。 例 如 ， 一 个 神经 元 有 两 个 输入 ， 神 经 元 的 函数 将 是 Ó W + 252)， 其 中 中 是 类 似 
Sigmoid 的 激励 函数 ，wi 是 由 训练 算法 确定 的 权重 。 


输出 层 


输出 层 与 输入 层 是 相似 的 ， 但 有 一 个 重要 区 别 : 输出 层 具 有 神经 元 。 这 是 模型 给 出 数据 的 地 方 。 与 输入 层 一 样 ， 输 出 的 数据 
也 是 对 称 型 或 标准 型 的 。 输 出 层 有 多 少 个 输出 ， 是 我 们 正在 建 模 的 消 数 决定 的 ( 见 图 8-12) 。 举 例 训 ,如果 我 们 建 模 的 消 数 要 
输出 交通 信号 灯 的 颜色 : 红色 、 绿 色 或 者 黄色 ， 那 么 输出 层 将 有 三 个 输出 (每 种 颜色 一 个 ) 。 这 些 输出 中 的 每 一 个 将 包含 我 们 想 
要 的 数据 的 近似 值 。 


图 8-12: 神经 网 络 的 输出 层 


训练 算法 
如 上 所 述 ， 每 个 神经 元 的 权重 来 自 训 练 算法 。 训 练 算法 有 很 多 种 ， 其 中 最 为 常见 的 是 : 
- 反 向 传播 章法 
. QuickProp 算 法 
. RProp 算 法 


所 有 这 些 算 法 都 是 为 了 给 每 个 神经 元 找到 最 优 的 权重 值 。 训 练 算法 通过 和 迭代 (也 称 为 epoch) 来 实现 这 个 目的 。 在 每 个 
epoch 的 训练 中 ， 算 法 毅 历 整 个 神经 网 络 ， 并 将 其 与 预期 的 结果 进行 比较 。 如 果 比 较 结 果 是 错误 的 ， 算 法 将 对 神经 元 的 权重 进行 
相应 的 调整 。 


这 些 算法 有 一 个 共同 点 : 它们 试图 找到 一 个 凸 误 磊 表 面 的 最 优 解 。 你 可 以 将 是 误差 表 面 看 作 一 个 砚 ， 这 个 砚 中 有 一 个 最 低 
值 。 想 象 一 下 ， 你 站 在 山上 ， 想 要 走 到 一 个 山谷 底部 去 ， 但 山谷 里 全 是 树木 ， 因 此 你 只 能 看 到 面前 很 近 一 点 的 地 方 ， 但 你 知道 你 
要 到 谷底 去 。 根 据 你 所 在 位 置 的 输入 数据 ， 你 可 以 进行 计算 ， 根 据 结 果 推 测 你 下 一 步 往 哪个 方向 走 。 这 种 方法 称 为 梯度 下 降 算法 

( 即 ， 通 过 走 下 山谷 来 找到 最 小 误 符 ) ， 如 图 8-13 所 示 。 训 练 算法 做 的 事情 也 是 这 样 : 它们 通过 操作 本 地 信息 来 尽量 减少 误 
Z. 


图 8-13: 梯度 下 降 走 向 山谷 


delta 规 则 


尽管 我 们 可 以 通过 求解 大 量 的 方程 式 来 计算 权重 ， 但 用 从 代 的 方式 ， 计 算 速 大 会 更 块 。 我 们 并 不 试图 计算 关于 权重 的 误差 加 
数 的 导数 ， 而 是 计算 每 个 神经 元 权重 的 “权重 变化 ”。 这 被 称 为 delta 规 则 ， 它 的 定义 如 下 所 示 : 


公式 8-1: delta 规 则 


Aw. = a(t,— elh ) (hx, 
J! J J J} f 
这 说 明神 经 元 的 第 i 个 权重 的 权重 变化 是 : 


alpha * (expected - calculated) * derivative of calculated * input at i 


公式 中 的 a 称 为 学 习 率 ， 它 是 一 个 小 剃 数 。 这 是 一 个 初步 的 想法 ， 但 它 却 在 背后 推动 了 反 向 传播 算法 ， 或 delta 规 则 的 一 般 情 
况 。 


bc fes EA 


反 向 传播 算法 是 确定 神经 元 权重 的 三 种 算法 中 最 简单 的 一 种 。 误 差 的 定义 为 (预期 x 实际 ) “， 其 中 “预期 ” 指 的 是 预期 输 
出 ，“ 实 际 ” 是 神经 元 计算 出 来 的 数值 。 我 们 想 找到 导数 为 零 的 点 的 位 置 ， 也 残 是 最 小 的 误差 。 


公式 8-2: 反 向 传播 


Aw(t) = -a(t — y)d' x, + cAw(t — 1) 


在 这 个 公式 中 ，g 是 动量 因子 ， 把 以 前 的 权重 变化 带 入 当前 的 权重 变化 中 ， 而 a 是 学 习 率 。 

反 向 传播 的 缺点 是 需要 花费 大 量 的 计算 时 间 。 研 究 人 员 致 力 于 训 | 练 简单 的 神经 网 络 。 直 到 1988 年 ， 这 项 不 断 改进 的 研究 导 
致 了 一 种 全 新 算法 的 产生 : QuickProp 算 法 。 
QuickProp 算 法 

Scott Fahlman 在 研究 如 何 改进 反 向 传播 之 后 发 明了 QuickProp 算 法 。 他 断言 反 向 传播 算法 需要 的 时 间 太 长 ， 以 至 于 几乎 不 
可 能 收敛 出 解决 方案 。 他 建议 在 算法 中 使 用 最 大 的 步 长 ， 以 便 不 超过 解决 方案 所 需 的 时 间 。 


Fahlman 确 定 了 两 种 途径 来 改善 反 向 传播 算法 : 使 用 动态 的 动量 和 学 习 率 ， 并 利用 每 个 权重 的 误差 的 二 阶 导 数 。 第 一 种 途 
径 可 以 更 好 地 优化 每 个 权重 ， 第 二 种 途径 可 以 利用 牛顿 的 求 近似 阔 数 的 万 法 。 


QuickProp 算 法 与 反 向 传播 算法 的 主要 区 别 在 于 : 需要 保留 在 上 一 个 epoch 期 间 计 算 的 误差 导数 的 副本 ， 以 及 该 权重 的 当前 
值 和 先前 值 之 间 的 产值 。 


要 计算 时 间 点 t 的 权重 变化 ， 可 以 使 用 以 下 公式 : 


S(t) 


AW(t) = Sei se 


Aw(t — 1) 


XAD AANA, MENEAREN. AEEA I NAFRAR KEAS. INEASA F 
该 权重 在 前 一 步 的 值 和 最 大 增长 参数 的 乘积 。 


RProp 算 法 
RProp 是 一 个 很 好 的 算法 ， 因 为 它 收敛 得 更 快 。 该 算法 由 Martin Riedmiller 在 20 世 纪 90 年 代 引进 ， 之 后 还 得 到 了 持续 的 改 


。 访 算法 的 能 力 是 在 一 个 epoch 之 内 把 权重 更 新 很 多 次 ， 因 此 它 可 以 快速 收敛 出 解决 方案 。 该 算法 不 是 根据 公式 来 计算 权重 变 
化 ， 它 仅 使 用 权重 改变 量 的 得 号 ， 以 及 一 个 增加 因子 和 减 小 因子 。 


e 


为 了 在 代码 中 实现 这 个 算法 ,我们 需要 定义 一 些 弟 量 (或 默认 值 ) 。 这 样 做 是 为 了 确保 算法 不 会 无 限 运 行 或 变 得 不 稳定 。 这 
些 默 认 值 来 自 于 FANN 库 。 


使 用 Python 程 序 更 容易 理解 这 个 基本 的 算法 ， 所 以 我 们 就 不 写 偏 导数 公式 来 解释 了 。 需 要 注意 的 是 ， 为 了 便于 阅读 ， 在 该 
代码 示例 中 没有 计算 误差 梯度 〈 即 相对 于 某 个 指定 权重 项 的 误差 变化 ) 。 以 下 是 使 用 纯 Python 实 现 RProp 算 法 的 代码 : 


import numpy as np 
import random 


neurons = 3 
inputs - 4 


delta zero = 0.1 
increase factor - 1. 
decrease factor - 0. 
delta max = 50.0 
delta min = 0 

max epoch - 100 
deltas = np.zeros((inputs, neurons)) 

last gradient - np.zeros((inputs, neurons)) 


2 
5 


def sign(x): 
if x > 0: 
return 1 
elif x « 0: 
return -1 
else: 
return 0 


weights = [random.uniform(-1, 1) for _ in range(inputs)] 
for j in range(max epoch): 
for i, weight in enumerate(weights): 
4& Current gradient is derived from the change of each value at each layer 
4& Do note that we haven't derived current gradient since that would detract 
4& from the example 


gradient momentum = last gradient[i][j] * current gradient[i]l[jl 


if gradient momentum » 0: 
deltas[i][j] = min(deltas[i][j] * increase factor, delta max) 
change weight = -sign(current gradient[i][j]) * deltas[ti][j] 
last gradient[i][j] = current gradient[i][j] 

elif gradient momentum < 0: 
deltas[i][j] = max(deltas[i][j] * decrease factor, delta min) 


last gradient[i][j] = 0 

else: 
change weight = -sign(current gradient[i][j])* deltas[i][j] 
weights[i] = weights[i] + change weight 


last gradient[i][j] = current gradient[i][j] 


以 上 ， 是 构建 神经 网 络 所 需要 了 解 的 基础 燥 识 。 接 下 来 ， 我 们 将 讨论 如 何 构建 一 个 有 效 的 人 工 神经 网 络 ， 以 及 有 哪些 必须 要 
做 的 决策 。 


构建 神经 网 络 


在 开始 构建 神经 网 络 之 前 ， 必 须 考虑 好 以 下 问题 : 
. 应 该 使 用 多 少 个 隐藏 层 ? 


- 每 层 有 多 少 个 神经 元 ? 


使 用 多 少 隐藏 层 


如 前 所 述 ， 神 经 网 络 的 独特 之 处 来 自 于 它 对 隐藏 层 的 使 用 。 如 果 把 隐藏 层 都 去 挥 ,神经 网 络 束 变 成 了 线性 组 合 问题 。 
隐藏 层 的 数量 并 没有 限制 ， 但 是 有 三 个 局 友 式 的 万 法 可 以 帮助 你 决定 使 用 几 个 隐藏 层 : 


“ 不 要 使 用 两 个 以 上 的 隐藏 层 ， 否 则 ， 可 能 会 出 现 对 数据 过 度 拟 合 的 情况 。 如 果 隐 藏 层 数 量 太 多 ， 神 经 网 络 就 会 开始 记忆 训 
练 数据 。 我 们 并 不 想 这 样 ， 而 是 希望 它 能 够 找到 分 类 的 模式 。 


` 通常 来 说 ， 一 个 隐藏 层 的 工作 ， 近 似 于 对 数据 做 一 个 连续 映射 。 大 多 数 神经 网 络 中 都 只 有 一 个 隐藏 层 而 已 。 

` 两 个 隐藏 层 将 有 可 能 不 做 连续 映射 。 这 种 情况 比较 罕见 ， 如 果 你 不 想 做 连续 映射 ， 就 可 以 使 用 两 个 隐藏 层 。 

选择 隐藏 层 数 时 ， 并 没有 固定 的 法 则 来 限制 是 否 要 使 用 这 些 局 上 友 陈 方法 。 归 根 结 欣 ， 目 的 是 要 尽量 减少 对 数据 过 拟 合 或 炎 拟 
合 的 风险 。 
每 层 有 多 少 神经 元 


神经 网 络 具有 优异 的 聚合 性 ， 但 扩展 性 极 差 。 从 本 质 上 说 ， 每 个 神经 元 是 它 前 面 的 所 有 神经 元 的 加 权 和 ， 所 以 它们 倾向 于 不 
适合 扩展 ， 而 较 适 合 聚合 。 让 我 们 假想 一 下 ， 一 个 有 两 个 神经 元 的 隐藏 层 连 接 到 有 30 个 神经 元 的 输出 层 ， 意 味 着 对 每 个 输出 神 
经 元 有 两 个 输入 。 在 这 种 情况 下 ， 没 有 足够 的 精 或 者 数据 能 形成 一 个 很 好 的 模型 。 


由 于 强调 应 该 聚 合 而 非 扩展 ， 我 们 有 了 下 面 的 一 些 决定 每 层 神 经 元 数量 的 局 友 陈 方法 : 

- 隐藏 神经 元 的 数量 应 在 输入 神经 元 数量 和 输出 神经 元 数量 之 间 。 

- 隐藏 神经 元 的 数量 应 为 输入 神经 元 数量 的 三 分 之 二 ， 加 上 输出 神经 元 的 数量 。 

E 隐藏 神经 元 的 数量 应 小 于 输入 神经 元 数量 的 两 倍 。 

然而 ， 由 于 隐藏 神经 元 的 数量 会 影响 模型 交叉 验证 的 效果 ， 以 及 解决 方案 的 收敛 效果 ， 所 以 最 终 还 是 要 通过 试验 和 容错 率 来 


决定 。 这 仅仅 是 个 起 点 而 已 。 


容错 率 和 最 大 epoch 


容错 率 使 我 们 知道 什么 时 候 应 该 停止 训练 。 我 们 永远 不 可 能 真正 得 


H 
| 
-> 


完美 的 解决 方案 ， 而 是 收敛 于 一 个 较 好 的 方案 。 如 


果 想 要 一 个 运行 良好 的 算法 ， 那 么 容错 率 可 能 会 很 低 ， 如 0.01%。 但 是 在 大 多 数 情 况 下 ， 由 于 容错 率 较 小 ， 需 要 更 长 的 时 间 才 能 
完成 训练 。 


许多 人 最 开始 定 的 容错 率 是 1%。 经 过 交叉 验证 ， 可 能 需要 把 容错 率 调 整 得 更 小 。 在 神经 网 络 术语 中 ， 容 错 率 是 一 个 内 部 的 


说 法 ， 通 过 均 方 误差 来 测量 ， 并 且 定 义 了 神经 网 络 训练 停止 乙 处 。 


独 经 网 络 的 训练 周期 以 epoch7 单 位 ，epoch 的 数目 早 在 训练 算法 局 动 之 前 惑 设 置 好 了 。 如 果 一 个 算法 及 取 10000 次 迭代 来 
获得 解决 方案 ， 则 可 能 有 较 高 的 风险 会 友 生 过 度 训 练 和 网 络 敏 感 ? 的 情况 。 一 般 来 说 训 练 周期 的 起 点 是 1000 个 epoch 或 迭代 。 
这 样 ， 既 可 以 建立 一 些 复杂 的 模型 ， 也 不 会 训练 过 度 。 


最 大 epoch 数 和 最 大 误差 共同 定义 了 解决 万 案 的 收敛 点 。 它 们 作为 一 种 信号 ， 告 诉 我 们 何 时 可 以 停止 训练 算法 ， 产 生 一 个 昼 
经 网 络 。 到 目前 为 止 ， 我 们 已 经 有 足够 的 理论 基础 ， 可 以 动手 试 试 创建 一 个 真实 的 神经 网 络 实例 了 。 


使 用 神经 网 络 来 对 语言 分 类 
语言 中 使 用 的 字符 与 语言 本 身 具有 直接 的 相关 性 。 汉 语 是 一 种 很 好 辨认 的 语言 ， 因 为 汉语 中 的 每 个 字符 意味 着 一 个 特定 的 音 


词 。 许 多 拉丁 语言 也 有 这 种 相关 性 ， 但 是 可 辨认 的 特征 是 各 个 字母 使 用 的 频率 . 


如 果 来 看 看 区 语 和 德语 中 的 “快速 神色 狐狸 跳 过 懒 狗 ” (英语 : "The quick brown fox jumped over the lazy dog" ; 


德语 : "Der schnelle braune Fuchs sprang uber den faulen Hund" ) 这 和 句 话 的 差异 ， 则 会 得 到 表 8-3 所 示 的 字母 出 现 频率 


表 8-3: 英语 和 德语 句子 之 间 的 字符 差异 


英语 1112411211111141 1 


20221111 1 0 
E 3 223721300030601042040000 1171 
2 


zy 2111310111121540 1 2221 11 10 1 

德语 和 英语 乙 间 有 举 微妙 的 区 别 。 比 如 ， 德 语 使 用 了 不 少 字母 N， 而 英语 则 使 用 了 很 多 的 字母 0。 如 果 我 们 要 把 这 个 区 分 方 
法 扩展 到 更 多 的 欧洲 语言 ， 该 怎么 做 呢 ” 更 具体 地 况 ， 我 们 如 何 建立 一 个 模型 来 分 类 用 英语 、 波 三 语 、 德 语 、 分 三 语 、 瑞 典 语 或 
挪威 语 写 的 句子 ? 


在 这 种 情况 下 ， 我 们 将 构建 一 个 简单 的 模型 来 根据 句子 中 的 字符 的 使 用 频率 来 分 类 语言 。 但 是 在 开始 训练 神经 网 络 之 前 ， 需 
要 一 些 训练 数据 。 为 此 ， 将 使 用 世界 上 被 翻译 最 多 的 书 : 《圣经 》。 我 们 将 提取 《 马 太 福 音 》 和 《使 徒 行 传 》 中 所 有 的 章节 作为 
训练 数据 。 


我 们 将 采取 的 万 法 是 从 这 举 文本 文件 中 提取 所 有 的 句子 ， 并 创建 字符 出 现 频率 的 向 量 ， 向 量 中 的 值 都 归 一 化 到 0 到 1 之 间 。 
我 们 将 使 用 这 些 输 入 数据 来 训练 一 个 神经 网 络 ， 这 个 网 络 将 会 把 输入 匹配 到 长 度 为 6 的 向量。 这 个 长 度 为 6 的 向 量 代 表 6 种 语言 ， 
匹配 到 的 语言 的 宗 引 赋值 为 1， 没 有 匹配 到 的 语言 的 索引 赋值 为 0。 例 如 ， 如 果 我 们 用 于 训练 的 语言 对 应 到 向 量 中 系 引 为 3 的 位 
置 ， 则 其 对 应 的 向 量 就 是 0，0，0，1，0，0] (索引 值 从 零 开 始 ) 。 


ein AH 
我 们 用 于 此 示例 的 所 有 代码 都 可 以 在 GitHub 上 找到 (https://github.com/thoughtfulml/examples-in- 


python/tree/master/artificial-neural-networks) , 
由 于 Python 在 不 断 变化 ， 所 以 运行 示例 之 前 最 好 查看 README 文 件 ， 这 样 可 以 使 你 事半功倍 。 
编码 和 测试 设计 
从 整体 上 讲 ， 我 们 将 要 做 的 事情 是 完成 以 下 两 个 类 ， 来 解析 《圣经 》 文 本 并 训练 一 个 神经 网 络 : 
Language 
这 个 类 将 解析 《圣经 》 文 本 ， 并 计算 字符 出 现 的 频率 。 
Network 


这 个 类 将 采用 语言 训练 数据 ， 并 建立 一 个 神经 网 络 ， 计 算 新 的 输入 文本 最 可 能 属于 哪 一 种 语言 ( 见 图 8-14) 。 


Language 


Tokenizer 
BS 


《圣经 》 译 文 


、 


训练 数据 Network 类 


图 8-14: 将 文本 分 类 到 语言 的 类 示意 图 


在 对 这 个 神经 网 络 进行 测试 时 ， 主 要 是 测试 输入 到 theanets 包 的 数据 流 ， 我 们 将 使 用 交叉 验证 来 完成 。 我 们 将 设 定 验收 的 
阅 值 作为 单元 测试 ， 并 使 用 它 进行 测试 。 


数据 

训练 数据 取 自 biblegateway.com 网 站 。 为 了 得 到 完善 的 数据 清单 ， 我 已 经 下 载 了 《使 徒 行 传 》 和 《 马 太 福音 》 的 英文 、 波 
兰 文 、 德 文 、 苍 兰 文 、 珊 典 文 和 挪威 文 的 文本 。 我 用 来 下 载 数据 的 脚本 是 用 Ruby 编 写 的 ， 我 完 得 在 此 处 写 出 这 个 脚本 并 没有 太 
大 意义 。 如 果 你 愿意 ， 可 以 随时 到 https://github.com/thoughtfulml/examples-in-python 上 查看 这 个 Ruby 脚 本 。 


编写 语言 接 颖 测试 


要 读 取 这 些 训 | 练 数据 ， 需 要 构建 一 个 类 来 解析 原始 数据 ， 并 与 神经 网 络 接合 。 为 此 ， 我 们 将 使 用 Language 类 。 该 类 的 目的 
是 读 取 一 种 给 定语 言 的 文本 文件 ， 并 统计 其 中 所 有 字符 的 出 现 频率 的 分 布 。 


当 需 要 时 ，Language 类 将 输出 包含 所 有 字符 频率 的 向 量 ， 向 量 中 的 值 总 和 为 1。 所 有 输入 值 将 在 0 到 1 之 间 。 我 们 需要 注意 
以 下 几 点 : 


. 要 确保 数值 是 正确 的 ， 并 且 总 和 为 1。 
. 不 需要 统计 诸如 UTF.8 空 格 或 标点 符号 这 类 特殊 字符 。 

要 把 所 有 字符 都 转换 成 小 写字 母 。 例 如 ，A 应 该 转换 a，U 也 应 该 转换 成 
Language 类 使 用 这 些 方法 来 确保 正确 地 读 取 文本 文件 ， 并 输出 散 列 数组 : 


# coding=utf-8 

from StringIO import StringIO 
import string 

import unittest 


from language import Language 


class TestLanguage(unittest.TestCase): 
def setUp(self): 
self.language data - u' 
abcdefghijklmnopqrstuvwxyz. 
ABCDEFGHIJKLMNOPQRSTUVWXYZ . 
Vu00AO. 
L^($X^&*() -'?2[]' P **-«»»«»«-,/. 
ieéüoeoA0RÜUseaAQóatzZ$enS Czt. 


self.special characters = self.language data.split("Mn")[-1].strip() 
self.language io = StringIO(self.language data) 
self.language - Language(self.language io, 'English') 


def test keys(self): 
"""has the proper keys for each vector 
self.assertListEqual(list(string.ascii lowercase), 
sorted(self.language.vectors[0].keys())) 
self.assertListEqual(list(string.ascii lowercase), 
sorted(self.language.vectors[1].keys())) 


special chars = sorted(set(u'iééüóoeóa3ófügaaaóalzz$en$Ccz2')) 
self.assertListEqual(special chars, 
sorted(self.language.vectors[-1].keys())) 


def test values(self): 
"""sums to 1 for all vectors 
for vector in self.language.vectors: 
self.assertEqual(1, sum(vector.values())) 


def test character set(self): 
"""returns characters that is a unique set of characters USsed 


chars = list(string.ascii lowercase) 
chars += list(set(u'ieéüoeéoaó0fiüeeaaóglzz$en$cz2')) 


self.assertListEqual(sorted(chars), 
sorted(self.language.characters)) 


至 此 ， 我 们 还 没有 实现 Language 类 ， 所 有 的 测试 都 无 法 进行 。 为 了 实现 第 一 个 目标 ,我们 需要 构建 一 个 类 ， 它 在 每 个 句子 
结尾 停顿 ， 统 计 所 有 的 字符 。 其 实现 如 下 所 示 : 


4 coding-UTF-8 
from tokenizer import Tokenizer 


class Language: 
def | init (self, language io, name): 
self.name - name 
self.vectors, self.characters = Tokenizer.tokenize(language io) 


# codingzutf-8 
import collections 
from fractions import Fraction 


class Tokenizer(object): 
punctuation = list(u'-QZ$X^&*() 4«V'[] 77 —e2»«»«-2,/') 
spaces = list(u' Nu00A0Mn' ) 
stop characters = list('.?2!') 


QCcLassmethod 

def tokenize(cls, io): 
vectors - [] 
dist = collections.defaultdict(int) 
characters = set() 


for char in io.read(): 
if char in cls.stop characters: 
if len(dist) > 0: 
vectors.append(cls.normalize(dist)) 
dist = collections.defaultdict(int) 
elif char not in cls.spaces and char not in cls.punctuation: 
character = char.Llower() 
characters.add(character) 
dist[character] += 1 
if len(dist) » 0: 
vectors.append(cls.normalize(dist)) 


return vectors, characters 


现在 我 们 的 代码 应 该 可 以 使 用 了 。 但 需要 注意 的 是 ， 这 里 面 仍 有 Unicode 空 格 ， 它 被 表示 为 \u00a0。 


现在 有 一 个 新 间 题 ， 那 残 是 折 有 数据 的 总 和 并 不 等 于 1。 我 们 将 引入 一 个 新 的 函数 来 做 归 一 化 ， 它 对 数值 进行 散 询 ， 并 使 用 
x/sum (x) 来 处 理 所 有 的 数值 。 请 注意 ， 我 使 用 的 是 分 数 的 形式 ， 这 增加 了 计算 的 可 靠 性 ， 直 到 需要 时 才 进行 浮 点 运算 : 


class Tokenizer: 
4 tokenize 


Qclassmethod 
def normalize(cls, dist): 
sum values = sum(dist.values()) 
return (k: Fraction(v, sum values) for k, v in dist.iteritems()] 


一 切 进行 得 很 顺利 ，Language 类 的 效果 看 起 来 很 不 错 。 对 这 个 将 要 与 神经 网 络 进 行 接合 的 类 ， 我 们 进行 了 全 面 的 测试 。 接 
下 来 我 们 要 继续 去 构建 一 个 Network 类 。 


对 Network 类 进行 交叉 验证 


我 用 《圣经 》 来 提取 语言 分 类 神经 网 络 的 训练 数据 ， 因 为 《圣经 》 是 历史 上 被 翻译 最 多 的 书 。 提 取 的 数据 是 《 马 太 福音 》 和 
《使 徒 行 传 》 这 两 章 的 英文 、 分 三 文 、 德 文 、 挪 威 文 、 汲 兰 文 和 瑞典 文 的 文本 。 由 于 《 马 太 福 音 》 和 《使 徒 行 传 》 这 两 章 有 一 些 
天 然 的 差异 ， 我 们 可 以 定义 12 个 测试 例 ， 先 使 用 《使 徒 行 传 》 训 练 模型 ， 并 看 看 它 对 《 马 太 福音 》 的 数据 进行 分 类 的 效果 如 
何 ， 然后 反 过 来 再 做 一 遍 验 证 。 


代码 如 下 所 示 : 


# coding=utf-8 

from StringIO import StringIO 
import codecs 

from glob import glob 

import os 

import re 

import unittest 


from nose parameterized import parameterized 
from language import Language 


from network import Network 


def language name(file name): 
basename, ext - os.path.splitext(os.path.basename(file name)) 
return basename.split(' ')[0] 


def load glob(pattern): 
result = [] 
for file name in glob(pattern): 
result.append(Language(codecs.open(file name, encoding-'utf-8'), 


language name(file name))) 
return result 


class TestNetwork(unittest.TestCase): 
matthew languages = load glob('data/* 0.txt') 
acts languages - load glob('data/* 1.txt') 
matthew verses - Network(matthew languages) 
matthew verses.train() 
acts verses - Network(acts languages) 
acts verses.train() 


languages = 'English Finnish German Norwegian Polish Swedish'.split() 
(Qparameterized.expand(Llanguages) 
def test accuracy(self, lang): 
"""Trains and cross-validates with an error of 5%""" 
print 'Test for %s' % lang 
self.compare(self.matthew verses, './data/9*s 1.txt' % Lang) 
self.compare(self.acts verses, './data/X*s O.txt' % lang) 


def compare(self, network, file name): 
misses - 0.0 
hits = 0.0 
with codecs.open(file name, encoding-'utf-8') as f: 
text - f.read() 


for sentence in re.split(r'[MV. !V2]', text): 
language = network.predict(StringlIO(sentence)) 
if language is None: continue 


if language.name -- language name(file name): 
hits += 1 
else: 


misses += 1 
total = misses + hits 


self.assertLess(misses, 
0.05 * total, 
msg-'9s has failed with a miss rate of Xf' % (file name, 
misses / total)) 


在 示例 代码 的 工程 的 根 目录 中 有 一 个 名 为 dqata 的 文件 夹 ， 其 中 包含 有 Language_0.txt 和 Language_1.txt 这 种 形式 的 文本 文 
件 ， 文 件 名 里 的 Language 是 语言 名 称 ，_0 是 代表 《 扎 太 福 音 》 的 奈 引 值 ，_1 是 代表 《使 徒 行 传 》 的 系 引 什 。 


训练 一 个 神经 网 络 需要 不 少时 间 ， 这 就 是 我 们 只 做 两 次 交叉 验证 的 原因 。 到 此 时 ， 已 经 为 交叉 验证 定义 了 12 个 测试 用 例 。 
当然 ， 现 在 什么 都 不 能 工作 ， 因 为 还 没有 实现 Network 类 。 在 开始 写 Network 类 时 ， 首 先 我 们 要 写 一 个 初始 化 类 ， 它 的 入 参 是 
Language 类 的 数组 。 其 次 ， 因 为 我 们 不 想 手 动 实现 所 有 的 神经 网 络 代 码 ， 所 以 使 用 一 个 名 为 PyBrain 的 Python 库 。 我 们 的 主要 


目标 是 得 到 一 个 能 够 接收 数据 、 进 行 训练 的 神经 网 络 。 


但 是 现在 我 们 要 做 一 个 重要 的 决定 : 使 用 哪个 神经 网 络 工具 库 ? 有 很 多 可 以 使 用 的 库 ， 而 且 我 们 也 可 以 自己 动手 编写 一 个 神 
经 网 络 库 。 目 前 最 好 的 神经 网 络 库 可 能 是 theanets， 它 能 够 与 NumpPy 很 好 地 集成 ， 可 以 用 于 深度 学 习 、 自 动 编码 ， 而 不 仅仅 是 
单纯 的 前 馈 网 络 。 我 们 将 使 用 theanets 库 ， 而 读者 也 可 以 使 用 诸如 PyBrain 之 类 的 库 。 


import numpy as np 
import theanets 


from tokenizer import Tokenizer 


class Network(object): 

def | init (self, languages, error-0.005): 
self. trainer - None 
self. net - None 
self.languages = languages 
self.error = error 
self.inputs - set() 
for language in languages: 

self.inputs.update(language.characters) 

self.inputs = sorted(self.inputs) 

def build trainer(self): 
inputs - [] 
desired outputs - [] 
for language index, language in enumerate(self.languages): 

for vector in language.vectors: 
inputs.append(self. code(vector)) 
desired outputs.append(language index) 

inputs = np.array(inputs, dtype-np.float32) 
desired outputs = np.array(desired outputs, dtype-znp.int32) 
self. trainer - (inputs, desired outputs) 


def code(self, vector): 

result = np.zeros(len(self.inputs)) 

for char, freq in vector.iteritems(): 

if char in self.inputs: 
result[self.inputs.index(char)] = float(freq) 

return result 
def build ann(self): 

hidden neurons = 2 * (len(self.inputs) + len(self.languages)) / 3 


self. net - theanets.Classifier([len(self.inputs), 
('size': hidden neurons, 'activation': 'tanh'], 
len(self.languages)]) 


现在 我 们 已 经 有 了 正确 的 输入 层 和 输出 层 ， 建 立 了 模型 ， 并 且 已 经 有 条 件 来 运行 整个 crossvalidation.py。 但 是 还 闪 缺 了 一 
点 ， 因 为 还 不 能 用 新 的 数据 来 运行 这 个 神经 网 络 。 为 了 解决 这 个 问题 ， 需 要 构建 一 个 名 为 #run 的 函数 。 完 成 这 个 轴 数 之 后 ， 我 
们 的 神经 网 络 就 可 以 工作 了 ， 上 有 具体 代 码 如 下 所 示 : 


class Network: 
def train(self): 
self. build trainer() 
self. build ann() 
self. net.train(self. trainer, learning rate-0.01) 


def predict(self, sentence): 
if self. net is None or self. trainer is None: 
raise Exception('Must train first') 
vectors, characters - Tokenizer.tokenize(sentence) 
if len(vectors) == 
return None 
input - np.array(self. code(vectors[0]), 
ndmin-2, 
dtype-np.float32) 
result = self. net.predict(input) 
return self.languages[result[60] |] 


调 优 神经 网 络 
对 这 个 神经 网 络 还 可 以 做 出 很 多 优化 ， 而 且 还 可 以 尝试 使 用 不 同 的 隐 蕊 层 激励 浮 数 ， 如 tanh、softmax 或 其 他 一 些 函 数 。 
我 把 进一步 的 调整 留 给 读者 作为 练习 ， 请 尝试 一 下 哪些 方法 可 以 工作 ， 哪 些 不 行 。 可 以 皖 试 许多 不 同 的 激励 函数 ， 也 可 以 关 
试 调整 内 部 豪 减 率 或 者 误差 率 。 由 于 已 经 做 了 最 初 测 试 ， 束 可 以 皖 试 许多 不 同 的 途径 ， 把 得 到 的 正确 率 跟 最 急 测 试 的 结果 相 比 
较 。 


利 经 网 络 的 精度 和 召回 


如 果 我 们 更 进一步 ， 把 这 个 神经 网 络 的 代码 部 署 到 生产 环境 中 ， 则 需要 引入 一 个 精确 率 和 召回 率 度量 ， 随 着 时 间 持 续 跟踪 结 
果 ， 这 样 束 完成 了 信息 的 闭环 。 这 个 度量 需要 根据 用 户 的 输入 来 确定 。 


我 们 可 以 通过 在 用 户 界 面 中 询问 测量 结果 是 人 否 正确 ， 来 测量 精确 率 和 召回 率 。 从 碍 询 结果 中 ， 我 们 可 以 提取 出 简要 概况 和 正 
确 的 分 类 ， 并 在 下 次 训练 时 将 其 反馈 到 我 们 的 模型 。 


要 了 解 更 多 有 关 监 测 精确 率 和 召回 率 的 信息 ， 请 参见 第 9 章 。 


对 这 个 神经 网 络 来 说 ， 需 要 在 生产 环境 中 监测 的 性 能 捐 标 ， 融 是 示 个 分 类 运行 了 多 少 次 ， 其 中 有 多 少 次 是 错误 的 分 类 。 


eps 


人 工 昼 经 网 络 算法 是 一 种 有 趣 的 做 信息 映射 的 方法 ， 可 以 通过 迭代 来 学 习 ， 在 本 章 的 例子 中 ， 它 可 以 把 句子 映射 到 对 应 的 语 
言 种 类 ， 效 果 还 不 销 。 


在 IPython 会 话 中 可 以 加 载 这 段 代 码 ， 为 了 好 玩 ， 我 试 着 输入 像 “meep moop” 这 样 的 短语 ， 它 被 分 类 为 挪威 语 ! 请 随意 
用 这 段 代码 来 做 些 有 趣 的 事 吧 。 


加 
A 
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把 新 的 蘑 姑 进行 分 类 ”或 者 给 定 一 个 社区 ， 房 子 的 价 全 如 何 ? 


本 章 过 论 一 个 完全 不 同 的 问题 : 聚 类 。 它 是 无 监督 学 习 方 法 的 一 个 子 集 ， 并 且 在 实践 中 对 于 理解 核心 数据 是 很 有 帮助 的 。 


如 果 你 去 过 一 个 图 书馆 ， 那 么 你 已 经 看 到 了 工作 中 的 聚 类 。 杜 威 十 进 制 图 书 分 类 法 是 一 种 聚 类 形式 。 杜 威 提出 一 个 系统 ， 把 
越 来 越 多 的 粒度 加 入 到 图 书 分 类 中 ， 并 彻底 改变 了 图 书馆 


本 章 将 讨论 什么 是 无 监督 以 及 它 有 什么 能 力 ， 涉 及 两 种 聚 类 算法 : K 均 值 和 最 大 期 望 (EM) 聚 类 。 也 将 讨论 与 聚 类 和 无 监 
督学 习 相关 的 其 他 两 个 问题 : 


如 何 测试 一 个 聚 类 算法 ? 


“不 可 能 性 定理 。 


无 任何 偶 关 的 研究 效 据 


如 果 我 给 你 一 个 充满 数据 的 Excel 表 格 ， 而 不 告诉 你 我 的 任何 想法 以 及 我 想 要 寻找 什么 ， 只 是 让 你 告诉 我 一 些 事情 ， 你 能 告 
RRITA? 这 正 是 无 监督 学 习 的 目标 : 研究 数据 是 天 于 什么 的 。 


一 个 更 为 正式 的 定义 是 将 无 监督 学 习 视 为 寻找 一 个 使 得 f(x) =x 的 最 佳 阔 数 f。 乍 一 看 ， 会 不 会 是 x=x 呢 ?但 是 并 不 仅 此 而 
已 ， 你 当然 可 以 随时 把 数据 映射 到 其 目 身 ， 但 是 无 监督 学 习 要 做 的 是 定义 一 个 质 述 数据 的 函数 。 


无 监督 学 习 一 直 在 试图 寻找 一 个 消 数 ， 这 个 遂 数 能 在 一 定 程度 上 概括 这 些 数据 。 所 以 与 其 试图 拟 合 成 一 些 分 类 或 者 数字 ， 我 
们 只 是 拟 合 函 数 来 搞 述 数据 。 必 须 理解 了 这 一 氮 才能 知道 如 何 去 测 试 它 。 


来 看 一 个 例子 。 


用 户 群 组 


把 人 分 到 不 同 的 组 群 中 具有 很 高 的 商业 和 营销 意义 。 例 如 ， 你 的 第 一 个 客 己 与 你 的 第 一 万 个 或 者 第 一 百 万 个 客 尸 是 不 同 的 。 
把 用 户 定 义 到 不 同 的 分 组 中 是 一 个 弟 见 的 问题 。 如 果 我 们 能 基于 行为 或 者 注册 时 间 把 客户 划分 到 不 同 的 分 组 中 ， 那 么 我 们 残 能 够 
根据 不 同 营 销 策 略 来 为 他 们 提供 更 好 的 服务 。 


问题 在 于 我 们 没有 为 客户 组 群 预定 义 的 标记 。 为 了 解决 这 个 问题 ， 你 可 以 看 看 他 们 是 在 哪 年 哪 月 成 为 客户 的 。 但 用 这 种 方法 


SEXESS ES 4 BB ESI ER EREE. SISRSS— AU SCRSJRS IR) ftbi CER. 1 B RESI A ROIBREZCA E? 例如 有 的 客 尸 只 购 


买 过 一 次 ， 有 的 购买 过 很 多 次 。 


相反 ， 我 们 能 够 从 数据 中 学 习 到 什么 呢 ” 表 9-1 是 客户 的 数据 。 假 设 我 们 知道 他 们 的 注册 时 间 、 人 花 销 以 及 他 们 最 喜欢 的 颜色 
是 什么 。 假 设 在 过 去 的 两 年 只 有 十 个 用 户 注 册 (当然 ， 我 们 希望 你 在 过 去 的 两 年 有 更 多 的 用 户 ， 这 里 只 是 为 了 便于 理解 ) 。 


表 9-1: 过 去 两 年 所 收集 的 数据 


注册 日 期 


最 喜欢 的 颜色 


ms 


14/1 
3/11 
30/1 
3/10 
1/2 
31/12 
3/9 
31/12 
13/1 
1/1 


- 


50 


N/A 
ma 
绿色 
品 红 


=Æ 
F3 


条 色 
m 5 
监 色 


米黄 


从 给 定 的 数据 中 ， 我 们 想 通 过 学 习 得 出 一 个 函数 用 于 摘 述 给 定 的 数据 。 通 过 观察 这 些 表格 ， 你 可 以 注意 到 最 喜欢 的 颜色 是 不 
相 天 数据 。 没 有 信息 表明 一 个 用 户 是 否 该 在 肝 个 群 组 内 。 我 们 还 剩 下 花 销 和 注册 时 间 域 。 看 起 来 可 以 把 用 户 按 伦 销 分 为 花 钱 的 和 
没 化 过 钱 的 。 这 个 信息 很 重要 。 在 注册 时 间 这 一 列 中 你 会 友 现 很 多 用 户 在 年 初 及 上 一 年 末 ， 以 及 九 月 、 十 月 和 十 一 月 注册 . 


现在 我 们 有 一 个 选择 : 是 要 在 紧凑 的 信息 中 找到 数据 的 要 点 ， 还 是 找到 一 个 数据 变换 的 新 映射 。 还 记得 第 7 章 讨 论 的 核心 扩 
巧 么 ?这 正 是 我 们 正在 做 的 ， 即 把 数据 映射 到 新 的 维 厌 上 。 为 了 达到 本 章 的 目的 ， 我 们 将 深入 研究 一 种 新 的 映射 技术 : 在 第 10 


章 中 ， 我 们 将 深入 研究 数据 压缩 。 


假设 我 们 的 数据 库 中 有 10 个 用 户 ， 并 且 有 天 于 他 们 何 时 注册 、 花 了 多 少 钱 的 信 


组 ( 表 9-2) 


表 9-2: 原始 数据 的 手动 分 组 


。 我 们 的 市 场 团队 已 经 手动 对 他 们 进行 分 


注册 日 期 ( 距 1 月 1 日 的 天 数 ) 


1 14/1 (13) 40 1 
2 3/11 (59) 50 2 
3 30/1 (29) 53 1 
4 3/10 (90) 100 2 
5 1/2 (31) 0 1 
6 31/12 (1) 0 | 
7 3/9 (120) 0 2 
8 31/2 (1) 0 1 
9 13/1 (12) 14 1 
10 1/1 (0) 50 | 


我 们 已 经 把 用 户 分 成 两 组 ，7 个 用 户 在 组 1 中 ， 我 们 可 以 称 之 为 年 初 注册 组 ， 而 年 末 注 册 的 则 在 组 2 中 。 


VEA Mg? 


但 是 这 里 有 些 事情 并 未 很 好 地 和 解决。 我 们 把 用 户 分 配 到 不 同 的 组 中 ， 但 是 并 没有 做 任何 实际 的 测试 


测试 群集 映射 
测试 非 监督 学 习 的 方法 并 没有 一 个 好 用 的 工具 ， 例 如 交叉 验证 、 混 消 算 阵 、ROC 曲 线 或 者 敏感 性 分 析 。 但 是 它们 仍然 可 以 
用 以 下 两 种 方法 之 一 来 测试 : 
确定 无 监督 学 习 方 法 的 一 些 先 验 的 合格 性 


将 结果 与 菜 种 实际 事实 进行 比较 
群集 的 合格 性 


领域 知识 在 确定 非 监 督学 习 模 型 的 适应 度 上 可 能 会 非 党 有用。 例如， 如果 想 要 找到 一 些 类 似 的 事物 ， 可 以 使 用 一 些 基 于 距离 
的 度量 。 如 果 希 望 确定 数据 的 独立 属性 ， 可 以 基于 相关 性 或 协 廊 牵 来 计算 适应 度 。 可 能 的 适应 度 消 数 包 括 : 


与 质心 的 平均 距离 


` 与 群集 中 所 有 点 的 平均 距离 


距离 质心 或 者 所 有 点 的 平均 距离 ， 被 处 理 成 我 们 将 要 讨论 的 算 ; 去 ， 例 如 K 均 值 或 者 EM 聚 类 ,但 轮廓 系数 对 集群 映射 的 合格 


性 是 很 有 意义 的 。 


轮廓 系数 


轮廓 系数 通过 查看 集群 内 部 的 平均 距离 与 最 近 集 群 的 平均 距离 来 评估 集群 的 性 能 ， 而 不 需要 真实 参考 标准 〈 即 通过 已 提供 的 
直接 观察 到 的 数据 与 推断 的 观察 结果 对 比 ) ， 如 图 9-1 所 示 。 


集群 1 集群 2 
O OQ 
"e 9 加 
选取 样本 计算 集群 内 部 计算 到 下 一 集群 的 
平均 距离 平均 距离 
图 9-1: 轮 慷 系数 视图 
数学 化 的 度量 如 下 : 


其 中 a 是 集群 中 的 一 个 样本 与 集群 内 其 他 点 的 平均 距离 ，b 是 同一 个 样本 到 最 近 的 集群 的 点 的 平均 距离 。 


这 个 系数 很 和 用， 因为 它 在 - 1 到 1 的 学 围 内 显示 适应 度 ， 而 不 需要 参考 标准 。 


比较 结果 与 参考 标准 


在 实际 使 用 中 ， 很 多 时 候 机 器 学 习 要 使 用 参考 标准 ， 这 个 标准 通 弟 是 我 们 从 训练 数据 、 人 类 或 者 其 他 手段 例如 测试 设备 获取 
到 的 。 这 个 数据 对 于 测试 我 们 的 直 锡 和 决定 模型 的 适应 度 是 有 价值 的 。 


群集 可 以 通过 以 下 方法 利用 参考 标准 来 进行 测试 : 


- 同 质 性 


.VV 度量 
- Fowlkes-Mallows 分 数 


以 上 这 些 方法 在 确定 模型 的 适应 度 方面 是 非常 有 用 的 。scikit-learn 库 中 有 所 有 这 些 方法 的 实现 ， 并 且 能 方便 地 用 于 确定 分 


最 大 期 思 (EM) RX 


己 其 专注 于 寻找 一 个 质心 以 及 与 之 相关 的 数据 操 ，EM 聚 类 的 天 注 点 在 解决 另外 一 个 问题 。 假 设 你 想 把 数据 点 分 类 到 集群 1 
或 者 集群 2。 你 可 能 只 想 知 道 数据 是 否 可 以 分 类 到 任意 一 个 集群 中 ， 而 不 关心 是 否 存 在 一 定 的 模糊 性 。 我 们 并 不 想 要 精确 的 分 
配 ， 更 想 要 知道 数据 点 分 配 到 每 个 集群 中 的 概率 。 


理解 聚 类 的 另外 一 种 万 式 类 似 于 解读 诸如 音乐 乙 类 的 事物 。 以 经 典 昔 乐 作品 为 例 ， 巴 赫 是 巴洛克 音乐 ， 莫 扎 特 是 古典 音乐 ， 
勃 拉 姆 斯 是 滔 漫 音乐 。 使 用 K 均 值 这 样 的 算法 对 区 分 古典 音乐 可 能 会 很 有 帮助 ， 但 是 对 于 现代 音乐 可 能 吏 没 那么 简单 了 。 例 如 ， 
咒 士 乐 瓯 非 钊 微妙 。Miles Davis, Sun Ra 以 及 其 他 一 些 音乐 家 的 作品 ， 残 很 难 进行 分 类 ， 他 们 的 音乐 混合 了 很 多 不 同 的 元 素 。 

所 以 ， 对 锅 士 乐 的 分 类 ， 可 以 通过 EM 聚 类 这 种 更 为 注重 整体 性 的 方法 。 举 一 个 例子 来 说 ， 假 设 现在 想 把 锁 士 乐 分 类 为 
swing 类 型 或 者 fusion 类 型 。 这 是 一 个 简单 的 模型 ， 我 一 开始 假设 音乐 可 以 是 swing 或 者 fusion 类 型 的 ， 概 率 各 为 50%。 可 以 用 
数学 公式 表示 为 Zk=<0.5，0.5>。 然 后 我 们 运行 一 个 特定 算法 来 确定 歌曲 “Bitches Brew-Miles Davis” 是 哪 一 类 的 ,我 们 可 能 
得 出 Zk=<0.9，0.1> ， 也 吏 是 这 它 有 90% 的 概率 是 fusion 类 型 的 。 类 似 地 ， 如 果 我 们 运行 同一 个 算法 来 确定 歌曲 “Oleo-sonny 


Rollins” 的 分 类 ,我们 可 能 得 到 的 结果 是 它 有 95% 的 概率 是 swing 类 型 的 。 


这 种 方法 的 美妙 之 处 在 于 ， 在 实际 中 ， 数 据 并 不 是 总 符合 某 一 个 分 类 。 但 是 我 们 如 何 通 过 代码 来 实现 这 样 的 一 个 算法 呢 ? 


图 9-3: 聚 类 实际 上 可 能 比较 “ 软 ” 
算法 
EM 聚 类 算法 是 一 个 收敛 于 集群 映射 的 迭代 过 程 。 它 在 每 次 运 代 中 完成 两 个 步骤 : 期 望 和 最 大 化 。 
但 这 是 什么 意思 呢 ? 期 望 和 最 大 化 可 以 代表 很 多 意思 。 
期 望 


期 望 是 天 于 更 新 模型 的 真实 性 并 且 查 看 映射 情况 如 何 。 它 是 用 测试 驱动 的 方法 去 建立 群集 ， 我 们 要 验证 模型 跟踪 数据 的 效果 
如 何 。 从 数学 上 来 讽 ， 对 数据 的 每 一 行 ， 我 们 都 根据 它 移 前 的 值 来 估计 一 个 概率 向 量 。 


在 第 一 次 运 代 中 假设 概率 都 是 均等 的 (除非 有 一 些 领域 知识 应 用 到 模型 志 中 ) 。 在 给 定 这 些 信息 的 情况 下 ， 计 算 在 模型 和 数 
据 的 真实 值 之 间 的 条 件 分 布 中 9 的 对 数 似 然 度 。 可 以 记 为 : 


Q(0 || 0,) = E; x,e ogL(6, X, Z) 


9 是 分 配给 行 的 概率 模型 。Z 和 X 是 群集 映射 和 原始 数据 点 。 


最 大 化 


只 是 估计 事物 的 对 数 似 然 度 并 不 能 解决 我 们 要 对 2 分 布 赋予 新 的 概率 的 问题 。 为 此 ， 我 们 简单 使 用 期 望 消 数 的 最 大 值 。 也 整 
是 说 ， 我 们 寻找 一 个 新 的 6 使 得 对 数 似 然 度 最 大 化 。 


0, = arg maxp Q(0 || 0, 


EM 聚 类 的 不 足 之 处 在 于 当 数 据 映射 成 奇异 协 方差 矩阵 时 可 能 不 会 收敛 并 且 不 稳定 。 我 们 将 “案例 : 音乐 归 类 ”一 节 中 深入 
研究 更 多 与 EM 聚 类 相关 的 问题 。 首 先 ， 我们 需要 讨论 一 下 所 有 聚 类 算法 所 共有 的 一 个 事实 : 不 可 能 性 定理 。 


第 10 草 ”模型 改进 与 数据 提取 


如 何 改进 一 个 已 知 的 简单 模型 的 机 器 学 习 算法 ， 比 如 贝 叶 斯 分 类 器 、 文 持 向 量 机 (SVM) ， 或 是 其 他 算法 ”本 章 将 从 以 下 
四 方面 探 寺 如何 改 进 : 


. 特征 选择 
. 特征 变换 
. 集成 学 习 

. 数据 重 抽 样 


我 将 分 别 概述 这 些 优化 方法 的 好 处 。 忆 之， 这 些 万 法 都 是 为 了 减少 数据 间 的 厅 合 相关 性 ， 降 低 数 据 维 度 ， 并 减少 校正 级 联 和 
数据 变化 的 敏感 性 。 


每 个 方法 都 有 各 目的 优 缺 后 ， 都 有 其 特定 的 使 用 场景 。 如 果 是 比较 复杂 的 问题 束 需 要 进行 必要 的 调整 和 改进 ， 还 需要 根据 每 
个 商业 案例 的 情况 具体 情况 具体 分 析 。 


ECIRAED 


我 不 确定 辩论 俱乐部 企 全 世界 其 他 高 校 是 否 都 仓 人 在， 但 是 在 美国 每 个 遍 校 都 有 这 样 一 个 俱乐部 。 其 实 这 只 是 一 个 非 单 简单 的 
场所 ， 束 是 提供 给 高 中 生 们 一 个 能 够 将 他 们 对 某 些 问题 的 看 法 坚持 下 来 并 且 与 他 们 意见 不 一 致 的 同学 进行 辩论 的 场所 。 这 也 给 那 
些 将 来 立志 当 律师 的 学 生 尝 试 束 某 些 案 例 进行 相关 辩论 提供 了 一 个 最 好 的 实践 方式。 


比较 有 趣 的 地 方 是 孩子 们 都 会 严格 遵守 相关 的 辩论 规则 通常 他 们 会 收集 各 种 事件 相关 的 事实 案例 并 且 规 整 成 卷 示 。 有 些 时 候 


其 实 他 们 的 真实 想法 与 他 们 辩论 时 所 处 的 正 肥 万 并 不 一 致 ， 但 是 他 们 也 会 按照 的 辩论 规则 捍卫 他 们 当前 的 正方 〈 或 者 反方 ) 的 结 


‘SAN 
bo 


- 


为 什么 我 要 告诉 你 辩论 俱乐部 的 事情 ”事实 上 辩论 俱乐部 的 核心 近 能 融 是 我 们 解 开机 器 学 习 算 法 的 钥匙 ， 大 多 数 情况 下 算法 
如 何 更 好 地 工作 取决 于 以 下 两 点 : 


收集 相关 事实 和 重要 数据 
:以 多 种 方式 争论 不 同 的 观点 


你 可 以 想 稼 一 下 ， 假 如 我 们 能 够 收集 到 各 种 重要 数据 或 者 相 天 数据 用 以 填充 我 们 的 模型 ， 并 且 对 于 同样 一 个 问题 可 以 矢 试 各 
种 不 同 的 方法 和 解决 途径 进行 多 次 迭代 ， 那 么 我 们 终究 可 以 找到 一 个 最 优 模型 解 。 


下 面 我 们 将 分 两 方面 进行 深入 探讨 : 如 何 选择 更 好 的 数据 以 及 如 何 有 效 地 解决 争论 性 的 问题 。 


最 小 几 余 最 大 相 天 性 的 特征 选择 


把 这 些 相互 竞争 的 因素 业 合 在 一 起 的 统一 算法 称 为 nRMR (minimum redundancy maximum relevance) 特征 选择 ， 目 
标 是 保持 最 大 相关 性 的 同时 使 元 余 度 最 小 。 我 们 可 以 用 Python 库 中 的 NumPy 和 SciPy 库 来 求解 这 个 最 大 (最 小 ) 问题 。 


首先 在 公式 中 做 如 下 简化 : 
公式 10-1: nRMR 定 义 
最 大 相关 性 一 宛 余 度 


公式 10-2: 相关 性 定义 


公式 10-3: 多余 度 定义 


ri 
bi j-1l'ipij 


JU JE = ^ nun 2 
DEED 


from scipy.optimize import minimize 
import numpy as np 


matrix = np.array([ 
Dar. 4.1. 2. TL 
[50, 4, 2, 2], 
[54,4,3,3], 
[58:4.3.41; 
[65,4,3,5], 
[70,4,3,6], 
[76,4,4,7], 
[76,4,4,8], 
[71,4,4,9], 
[60,4,3,10], 
[51.42.11], 
[46,4.1,2,12] 

]) 


corrcoef - np.corrcoef(np.transpose(matrix)) 
relevancy = np.transpose(corrcoef)[0][1: | 


4 Set initial to all dimensions on 
x0 = [1,1,1] 


# Minimize the redundancy minus relevancy 

fun = lambda x: sum([corrcoef[i-1, j«1] * x[i] * x[j] for i in range(len(x)) \ 
for j in range(len(x)) ])/ \ 
CSUPCX) see 2). = 
(sum(relevancy * x) / sum(x)) 

res = minimize(fun, x0, boundsz((0,1), (0,1), (0,1))) 

res.x 

array([ 0.29820206, 1. , 0.1621906 ]) 


结果 正如 我 们 所 期 望 的 一 样 : 成 功 建立 了 冰淇淋 消费 与 气温 天 系 的 模型 。 作 为 额外 的 奖励 ， 你 也 可 以 及 用 整数 规划 法 将 值 变 
为 0 或 者 1， 这 样 做 的 好 处 融 是 容易 甄别 出 选择 哪些 特征 可 以 有 效 地 改善 模型 。 


FESSER SARRE TEE 


3c Eel CAERA ER Io E S ESAKA. AA, RRNA ERER A: 即 有 效 地 采样 一 
组 数据 ， 并 投射 到 一 个 新 的 空间 ， 无 论 是 复数 还 是 其 他 扩展 模式 都 是 分 析 数 据 的 方式 。 在 本 节 中 ， 我 们 将 讨论 另外 一 种 植 根 于 续 
性 代数 的 特征 变换 算法 。 它 通 党 用 于 降低 矩阵 维度 ， 并 可 以 用 来 改进 模型 。 


要 理解 特征 变换 ， 首 先 来 看 看 这 个 新 算法 是 如 何 将 算 阵 转换 成 一 个 压缩 比 更 高 而 且 更 详细 的 新 版 本 : 主 成 分 分 析 和 独立 成 分 


主 成 分 分 析 


主 成 分 分 析 (PCA) 这 个 算法 由 来 已 久 。 可 以 简单 地 认为 该 算法 是 找到 方 笑 最 大 的 方向 ， 然 后 将 其 定 为 第 一 主 成 分 。 这 与 回 
归 的 原理 非常 相似 ， 它 决定 了 将 数据 映射 到 哪个 方向 最 合适 。 假 设 你 有 一 个 吕 声 数据 集 如 图 10-4 所 示 。 


10 ------ 


图 10-4: 图 形 化 的 PCA 高 斯 分 布 样 例 


在 图 10-4 中 ， 数 据 有 一 个 明确 的 方向 : 向 右上 方 。 我 们 需要 确定 的 主 成 分 肖 定 是 数据 的 最 大 方 卷 值 的 方向 。 第 二 主 成 分 将 
通过 正 交 和 从 代 后 转换 到 主要 方向 上 ， 这 样 我 们 就 达到 了 减少 维度 的 目的 。 


天 于 PCA 的 另 一 种 思考 束 是 它 与 面部 的 天 系 。 当 你 应 用 PCA 模 型 去 处 理 一 系列 的 面孔 时 ， 一 个 奇怪 的 结果 将 出 现 ， 我 们 称 之 
为 特征 脸 ( 见 图 10-5) 。 


图 10-5: 特征 脸 (图 片 来 源 : AT&cT 实 验 室 ) 


虽然 这 些 脸 看 上 去 很 奇怪 ， 但 其 实 这 是 真正 分 析 了 所 有 的 训练 数据 而 总 结 出 来 的 迷人 的 平均 脸 语 。 关 于 PCA 的 具体 实现 ， 我 
们 将 在 下 一 节 中 进行 详细 讨论 ， 并 依赖 于 PCA 实 现 一 个 称 为 独立 分 量 分 析 (ICA) 的 算法 。 


独立 分 量 分 析 
想象 你 身 处 一 个 鸡尾酒 会 ， 你 的 朋友 想 过 来 和 你 说 话 。 此 时 靠近 你 的 是 一 个 你 讨厌 的 但 是 不 会 财 跨 的 人 ， 与 此 同时 在 房间 的 


男 一 边 是 一 个 正在 运行 的 洗衣 机 ， 不 停 地 制造 噪声 〈 见 图 10-6) 。 


大 声 讲话 的 人 你 你 的 朋友 


BÓ ce] 正在 制造 噪声 


图 10-6: 鸡尾酒 会 的 例子 


你 想 知 道 你 的 朋友 在 说 什么 ， 所 以 你 得 靠近 她 仔细 倾听 。 作 为 人 类 ， 你 能 够 分 离 出 像 洗衣 机 那样 的 噪声 或 是 你 不 喜欢 的 声 


音 。 但 是 ,我 们 如 何 能 够 做 到 让 数据 分 离 这 些 噪声 ? 

还 是 以 倾听 朋友 为 例 ， 假 如 你 只 有 一 个 录音 机 但 是 需要 滤 除 背景 中 的 所 有 吕 声 ， 你 会 怎么 做 ? 你 需要 使 用 ICA 算 法 。 

从 技术 上 讲 ，ICA 算 法 最 大 限度 地 减少 互信 息 ， 或 是 共享 的 信息 中 的 两 个 变量 。 这 是 一 种 直观 的 感觉 : 总 有 不 同 的 信号 找到 
我 。 

以 图 10-5 中 我 们 的 人 脸 识 别 为 例 ， 什 么 称 之 为 ICA 提 取 ? 与 PCA 只 提取 出 特征 脸 不 一 样 ，ICA 算 法 需要 提取 脸 、 鼻 子 、 眼 睛 


和 头发 等 各 个 特征 。PCA 和 ICA 都 是 转换 数据 的 有 效 手段 ， 甚 至 可 以 更 好 地 分 析 信 息 ( 见 图 10-7) 。 然 后 ， 我 们 可 以 使 用 这 个 更 
简洁 的 数据 来 补充 我 们 的 模型 ， 使 与 之 相关 的 信息 更 加 完善 ， 这 也 将 使 我 们 的 模型 比 一 般 的 交叉 验证 更 有 效 。 


现在 我 们 已 经 了 解 了 特征 变换 和 特征 选择 ， 让 我 们 讨论 一 下 基于 如 何 利用 它们 来 改善 我 们 的 分 类 和 回归 模型 。 


至 此 为 止 , 我 们 已 经 讨论 了 维度 选择 以 及 维度 变换 。 这 两 种 方法 对 于 改进 模型 或 是 正 使 用 的 数据 集 都 是 非常 有 用 的 。 但 还 有 
另 一 种 改进 模型 的 方法 : 集成 学 习 。 


待 处 理 数 据 PCA 主 成 分 ICA 独立 成 分 


NI 

Z 
— v an 
N D: N 
x o S oo o 
bd 4 uv» 
m at e 

x 

T 

m 

y 
y 
2 1 0 1 2 
a$X[ 1] a$X %*% aSK[ 1] a$S[ 1] 


图 10-7: ICA 提 取样 例 
集成 学 习 的 概念 非常 简单 : 建立 多 个 模型 并 将 它们 聚合 在 一 起 。 其 实在 第 5 章 讨 论 的 随机 森林 就 是 集成 学 习 的 一 种 方式 .。 


集成 学 习 的 一 个 常见 例子 是 天 气 预 报 。 当 你 听 到 下 周 的 天 气 预报 时 ， 你 很 可 能 会 听 到 多 种 天 气 模式 的 聚集 结果 。 例 如 ， 欧 洲 
模型 (ECMWF) 可 以 预测 下 周 是 否 下 雨 ， 而 美国 国家 环境 预报 中 心 的 全 球 预报 系统 模型 (GFS) 则 可 能 做 不 到 。(1 上 气象 学 家 综 


2227s. 


合 考 虑 了 这 些 模型 的 预测 结果 后 ， 确 定 那 些 天 气 状况 是 最 有 可 能 出 现 ， 并 在 晚间 新 闻 传 递 出 综合 的 信息 。 


当 聚 合 多 个 模型 时 ， 通 弟 有 两 种 集成 学 习 的 方法 : bagging (一 个 简单 的 万 法 ) 和 boosting (一 个 更 优雅 的 方法 ) 。 


装 袋 法 (bagging) 


"xA (bagging) 也 是 bootstrap aggregating 的 缩写 ， 是 一 个 非常 有 用 的 技术 。 这 个 想法 很 简单 : 每 轮 新 的 训练 集 从 初 
始 的 训练 集中 随机 生成 出 来 。 


假设 总 的 训 纤 集 包含 1000 个 项 目 数据 ， 我 们 把 它 分 成 50 轮 训练 集 ， 每 组 100 个 数据 。 (因为 我 们 允许 样本 数据 在 某 个 训练 
集中 出 现 多 次 ， 因 此 这 ?50 个 训练 集 将 可 能 交叉 使 用 部 分 数据 ， 但 是 这 不 会 影响 我 们 的 结果 ， 只 要 每 个 训练 集 乙 间 是 独一无二 的 
即 可 。) 然后 将 这 些 训练 集 供给 50 个 不 同 的 模型 。 


现在 ,我 们 就 拥有 50 种 不 同 的 模型 以 及 50 个 不 同 的 答案 。 残 像 刚才 提 到 的 天 气 报告 一 样 ， 我 们 从 中 挑 取出 最 喜欢 的 那个 答 
案 或 者 简单 地 在 所 有 答案 中 求 取 均 值 。 


这 惑 是 bagging 法 所 做 的 事情 : 它 平均 了 所 有 的 模型 所 产生 的 结果 ， 这 些 训 练 数据 都 来 目 同一 个 训练 集 。 天 于 bagging 法 的 
独 奇 之 处 企 于 蛋 型 最 终 得 到 了 改进 ， 因 为 它 去 除了 一 些 异 单 值 倾 回 的 数据 。 


但 我 们 的 讨论 该 到 此 为 止 吗 ?bagging 法 似乎 有 点 幸 运 的 成 分 ， 而 且 也 不 是 很 优雅 。 下 面 我 们 来 介绍 另 一 个 更 强大 的 集成 学 


JIA: 促进 法 (boosting), 


促进 法 (boosting) 


与 乙 前 将 训练 数据 分 割 成 多 个 数据 模型 不 同 ， 我 们 可 以 使 用 促进 法 (boosting) 来 优化 训练 集中 的 最 佳 加 权 方 案 。 


给 定 一 个 二 进 制 的 分 类 模型 ， 如 支持 向 量 机 、 决 策 树 、 朴 素 贝 叶 斯 分 类 器 ， 或 其 他 的 模型 ,我 们 都 可 以 提高 训练 数据 的 质量 
并 改善 其 结果 。 


假设 你 有 一 个 训练 集 ， 正 如 我 们 刚才 所 摘 述 的 1000 个 数据 点 。 我 们 通 弟 操作 的 假设 前 提 是 : 所 有 的 数据 点 都 很 重要 ， 或 它 
们 是 同等 重要 的 。 基 于 同样 的 想法 ， 并 开始 假设 所 有 的 数据 点 都 是 平等 的 。 但 是 直觉 告 诉 我 们 : 并 非 所 有 的 训练 点 都 是 同等 重要 
的 。 如 果 我 们 能 够 根据 每 一 个 训练 点 的 相关 权重 来 优化 每 一 次 输入 会 怎样 呢 ? 


这 正 是 促进 法 的 目标 。 许 多 算法 都 能 达到 这 个 目的 ， 但 目前 最 流行 的 是 AdaBoost。 


要 使 用 AdaBoost， 我 们 首先 需要 修改 一 下 训练 数据 集 。 因 为 这 个 方法 的 前 提 束 是 要 求 所 有 的 训练 数据 答案 要 么 是 1， 要 么 
是 -1。 因 此 ， 以 垃圾 邮件 分 类 为 例 ， 我 们 会 说 ,垃圾 邮件 是 1， 而 非 垃 圾 邮件 是 -1。 一 旦 我 们 修改 了 数据 集 ， 束 可 以 引入 一 个 特 
殊 的 误差 国 数 : 


EL (x), y 1) = UP d 


这 个 公式 很 有 意思 。 表 10-4 显 示 了 所 有 的 4 种 用 例 。 


表 10-4: 误差 公式 的 所 有 用 例 
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正如 你 所 看 到 的 ， 当 f (x) AABS, irge, KEA, REA o 
因此 ， 我 们 可 以 使 用 该 算法 通过 一 系 询 的 和 迭代 和 梯度 下 降 获 得 一 个 更 好 的 加 权 万 案 : 
` 选择 一 个 假设 函数 (无论 是 支持 向 量 机 、 朴 素 贝 叶 斯 分 类 器 ， 或 是 其 他 的 方案 ) 


一 基于 该 假设 阔 数 ， 加 和 所 有 的 错误 分 类 的 权重 点 : 
h(x) * y 


一 基于 错误 率 计算 学 习 率 : 


. X Ja 3] AA Xf 
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更 新 权重 : 


Wite-1-— 


此 处 应 更 新 所 有 的 权重 


Wi t 


. 归 一 化 权重 并 确定 所 有 的 权重 总 和 为 1 
上 面 所 做 的 是 对 训练 数据 收敛 的 最 佳 加 权 方 案 。 它 也 可 以 被 理解 成 一 个 最 小 化 的 凸 立 数组 求解 的 问题 。 
这 种 元 局 友 式 可 以 很 好 地 改善 任何 弱 分 类 器 并 将 它们 组 合成 一 个 强 分 类 器 ， 如 朴素 贝 叶 斯 分 类 或 其 他 决策 树 等 。 


[1] ECMWF 模 型 关注 未 来 24 小 时 到 7 天 内 的 天 气 情况 ，GPS 模 型 关注 未 来 1 周至 2 周 内 的 天 气 情 况 。 


结论 


至 此 我 们 已 经 学 会 了 各 种 不 同 的 技巧 用 于 改善 现 有 的 模型 : 特征 选择 、 特 征 转换 、 集 成 学 习 和 半 安 法 。 把 它们 都 集成 在 了 一 
张 忠 图 中 ， 如 图 10-8 所 示 。 
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图 10-8: 特征 改进 的 总 图 


可 以 看 出 ， 集 成 学 习 和 浅 八 法 主要 关注 于 多 模型 的 建立 和 各 种 尝试 ， 而 特征 选择 和 特征 变换 则 更 加 关注 于 训练 数据 集 的 修改 
和 研究 。 


第 11 章 ”将 这 举 方 法 融合 在 一 起 : 结论 


好 了 ， 我 们 终于 到 了 本 书 的 结尾 ! 虽然 你 对 机 器 学 习 的 深度 可 能 无 法 媲美 一 个 机 器 学 习 的 博士 ， 但 我 仍然 硕 履 你 学 到 了 一 些 
东西 。 具 体 来 训 ， 我 硕 望 你 已 经 建立 了 一 个 解决 问题 的 思考 过 程 ， 因 为 机 器 学 习 在 解决 问题 上 工作 得 很 好 。 我 坚信 使 用 测试 是 我 
们 有 效 利用 科学 方法 的 唯一 途径 。 这 是 现代 世界 存在 的 原因 ， 它 能 够 帮助 我 们 更 好 地 编写 代码 。 


当然 你 不 能 编写 一 个 测试 去 把 所 有 的 内 容 降 括 其 中 ， 但 这 是 一 种 重要 的 思维 方式 。 希望 你 学 到 了 一 些 天 于 如 何 将 这 种 心态 应 
用 到 机 器 学 习 中 的 知识 。 在 本 章 中 ， 我 们 将 在 一 个 比较 高 的 层次 上 讨论 本 书 所 涵 匡 的 内 容 。 我 将 为 你 提供 一 些 阅读 建议 ， 以 便 你 
能 进一步 深入 研究 机 器 学 习 。 


机 器 学 习 算法 回顾 
如 前 所 述 ， 机 器 学 习 分 为 三 个 主要 类 别 : 有 监督 学 习 、 无 监督 学 习 和 强化 学 习 ( 见 表 11-1) 。 这 本 书 跳 过 了 强化 学 习 ， 但 


我 强烈 建议 你 现在 研究 一 下 。 这 样 你 会 有 更 好 的 背景 知识 。 我 将 在 本 草 的 最 后 一 节 列 出 一 个 学 习 的 资源 清单 。 


表 11-1: 机 器 学 习 的 类 型 


有 监督 学 习 ”有 监督 学 习 是 最 弟 见 的 机 璐 学 习 类 别 。 这 种 方法 是 一 种 函数 逼近 。 我 们 尝试 将 一 些 
数据 点 映射 到 一 些 模糊 函数 。 通过 智能 优化 ， 我 们 努力 拟 合 出 一 个 最 接近 将 来 要 使 
用 的 数据 的 函数 。 这 种 方法 被 称 为 “有 监督 学 习 ， 因 为 它 有 一 个 用 于 学 习 的 数据 
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无 监督 学 习 ”无 监督 学 习 只 是 分 析 数 据 而 没有 任何 类 别 的 Y 来 映射 。 这 种 方法 被 称 为 “无 监督 学 习 ” 
该 算法 不 知道 输出 应 该 是 什么 ， 需 要 自己 推理 

强化 学 习 ” ”强化 学 习 类 似 于 有 上 监督 学 习 ， 但 是 每 个 步骤 都 会 产生 反馈 。 例如 ， 这 就 像 一 只 在 迷 
言 中 寻找 奶 酷 的 老鼠 。 老 鼠 想 要 找到 奶酪， 在 大 多 数 情况 下 它 都 找 不 到 ， 直 到 最 后 找 
到 ， 它 才能 得 到 回报 


o 


这 些 类 别 通 党 有 两 种 类 型 的 偏 置 : 限定 偏 畦 和 优选 偏 畦 。 限 定 偏 置 是 对 算法 的 限制 ， 而 优选 偏 置 是 该 算法 更 适合 解决 什么 样 


所 有 这 些 信息 (如 表 11-2 所 示 ) 将 帮助 于 我 们 确定 是 否 应 该 使 用 某 个 算法 。 


表 11-2: 机 器 学 习 算 法 矩阵 


优选 偏 置 


K- 最 近邻 算法 ”有 监督 学 习 ”基于 实例 一般 来 说 ，KNN 适用 于 在 解决 距离 相关 的 问题 


(KNN) 测量 距离 相关 的 近似 值 ， 时 优先 考虑 该 算法 
它 受 到 维 数 灾难 的 影响 
朴素 贝 叶 斯 有 监督 学 习 ”概率 适用 于 输入 相互 独立 的 当 每 个 类 的 概率 总 大 于 零 
算法 问题 的 问题 优先 考虑 该 算法 
决策 树 / 有 监督 学 习 Hj 对 于 低 协 方差 的 问题 不 在 解决 分 类 数据 问题 时 优 
随机 森林 太 有 用 先 考 虑 该 算法 
支持 向 量 机 有 监督 学 习 ”决策 边界 ”作用 于 两 个 分 类 之 间 有 在 解决 二 进 制 分 类 问题 时 
算法 (SVM) 明显 区 别 时 优先 考虑 该 算法 
神经 网 络 算法 ”有 监督 学 习 ” 非 线 性 函数 几乎 没有 限定 偏 置 在 输入 是 二 进 制 值 时 优先 
EA 考虑 该 算法 
隐 马 尔 可 夫 有 监督 学 习 / ”马尔 可 夫 一般 适 用 于 符合 马尔 可 夫 在 处 理 时 间 序 列 数据 和 无 
模型 (HMM) ”无 监督 学 习 方法 的 系统 信息 记忆 信息 时 优先 考虑 该 算 
法 
聚 类 算法 无 监督 学 习 RŽ 没有 限定 偏 置 在 数据 是 给 定 的 某 种 形式 


的 距离 的 分 组 ( 欧 几 里 得 、 
曼哈顿 或 其 他 ) 时 优先 考 
虑 该 算法 


表 11-2: 机 器 学 习 算 法 矩阵 (HA) 


优选 偏 置 
特征 选择 无 监督 学 习 EEDE KAREME 依赖 于 算法 ， 可 以 优先 考 
虑 高 交互 性 的 数据 
特征 转换 无 监督 学 习 KDE S 必须 是 一 个 非 退 化 矩阵 ”将 会 更 好 地 工作 于 没有 反 
转 问题 的 矩阵 
RRA 元 局 发 式 算 法 元 局 发 式 ”几乎 作用 于 任何 事情 对 于 不 是 高 度 可 变 的 数据 
算法 很 有 效 


如 何 使 用 这 些 信息 来 解决 问题 


使 用 表 11-2 可 以 弄 清楚 如 何 处 理 给 定 的 问题 。 例 如 ， 如 果 试 图 确定 某 人 居住 在 哪个 社区 ，KNN 是 一 个 很 好 的 选择 ， 而 朴素 
贝 叶 斯 分 类 此 时 无 能 为 力 。 但 朴素 贝 叶 斯 分 类 对 于 确定 情绪 或 某 种 其 他 类 型 的 概率 效果 很 好 。SVM 算 法 对 于 友 现 在 两 片 数据 之 
间 的 硬 分 割 问 题 很 有 效 ， 而 且 几 乎 不 会 受到 维 数 灾难 的 影响 。 所 以 SVM 往往 用 于 处 理 有 很 多 特征 的 单词 问题 。 神 经 网 络 可 以 解 
决 从 分 类 到 驾驶 汽车 等 问题 。HMM 可 以 给 音乐 打分 。 


聚 类 在 无 须 任何 目标 地 将 数据 分 组 在 一 起 时 很 好 用 。 这 对 于 分 析 或 仅仅 构建 库 并 有 效 地 存储 数据 是 有 用 的 。 过 滤 非 党 适合 
服 维 数 灾难 。 我 们 可 以 看 到 在 第 3 草 中 主要 使 用 它 来 关注 诸如 菌 帽 颜 色 、 气 味 等 蘑 半 的 重要 属性 。 


本 书 没有 提 到 的 是 了 解 这 些 算法 仅仅 是 一 个 开始 。 重 要 的 是 你 需要 意识 到 : 选择 什么 并 不 重要 ， 解 决 什么 才 是 重点 。 这 融 是 
为 什么 要 做 算法 模型 的 交叉 验证 并 测量 精度 、 反 馈 和 准确 性 。 对 工作 中 每 一 步 的 测试 和 检查 都 保证 我 们 能 更 接近 更 佳 答案 。 


我 鼓励 你 了 解 更 多 的 机 器 学 习 模 型 ， 并 考虑 对 它们 应 用 测试 。 大 多 数 算法 都 被 放 进去 ， 这 是 很 好 的 。 但 是 要 编写 长 时 间 学 习 
的 代码 ， 渺 小 的 人 类 需要 检查 上 自己 的 工作 ，。 


